为 什么 要 写 这 本 书 


我 从 事 Linux 环 境 的 开发 工作 已 有 近 十 年 的 时 间 ， 但 我 一 直 认为 工作 时 间 并 不 等 于 经 验 ， 更 不 等 于 能 力 。 如 何 才能 把 工作 时 间 转 换 为 
也是 我 在 ChinaUnix 上 的 博客 座右铭 ， 目 前 我 的 博客 一 共有 247 篇 博文 ， 记 录 的 大 都 是 Linux 内 核 网 络 部 分 的 源码 分 析 ， 以 及 相关 的 应 


特 
四 


我 的 ， 而 这 也 促成 了 本 书 的 出 版 。 


已 经 有 了 一 些 沉淀 ， 同 时 时 间 也 相对 比较 充裕 ， 


其 实在 Lisa 之 前 ， 就 有 另外 一 位 编辑 与 我 聊 过 ， 但 当时 我 没有 下 好 决心 ， 认 为 自己 无 论 是 在 技术 水 平 ， 还 是 时 间 安 排 上 ， 都 不 足以 完成 一 本 技术 


因此 决定 开始 撰写 自己 技术 生涯 的 第 一 本 书 。 


的 经 验 和 能 力 呢 ?我 认为 无 非 是 多 阅读 、 多 思考 、 多 实践 、 多 分 
几 械 工业 出 版 社 华章 公司 的 Lisa 正 是 通过 我 的 博客 找到 


书 的 创作 。 等 到 与 Lisa 洽 谈 的 时 候 ， 我 感觉 自己 的 技术 


对 于 Linux 环 境 的 开发 人 员 ，《Unix 环 境 高 级 编程 》 (后 文 均 简称 为 APUE) 无 疑 是 最 为 经 典 的 入 门 书籍 。 其 作者 Stevens 是 我 从 业 以 来 最 崇拜 的 技术 专家 。 他 的 Advanced Programming in the Unix 


Environment、Unix Network Programming 系 列 及 TCP/IP lllustrated 系 列 著作 ， 字 字 珠 现 ， 本 本 经 典 。 在 我 从 业 的 最 初 几 稀 
自己 的 技能 呢 ? 经 过 一 番 思 考 ， 我 选择 了 阅读 Linux 内 核 源码 ， 并 尝试 将 内 核 与 应 上 
Linux 专 家 的 这 句 话 “Read the fucking codes”。 只 有 阅读 了 内 核 源码 ， 才 能 真正 理解 Linux 内 核 的 原理 和 运行 机 制 ， 而 此 时 ， 我 也 发 现 了 Stevens 著 作 的 一 个 
而 写 的 ，Linux 虽 然 大 部 分 与 Unix 兼 容 ， 但 是 在 很 多 行为 上 与 Unix 还 是 完全 不 同 的 。 这 就 导致 了 书 中 的 一 些 内 容 与 Linux 环 境 中 的 实际 效果 是 相互 矛 


了 坚实 的 基础 。 在 掌握 了 这 些 知识 以 后 ， 如 何 继续 提高 


现在 有 机 会 来 写 一 本 技术 图 书 ， 我 就 想 在 向 Stevens 致 敬 的 同时 ， 写 一 本 类 似 了 


充 ， 还 可 以 作为 Linux 开 发 人 员 的 进 阶 读物 。 导 


实 上 ， 本 书 的 写作 布局 正 是 以 APUE 的 章节 作为 参考 ， 针 对 Linux 环 境 ， 不 仅 对 上 


读者 不 仅 可 以 知道 接口 怎么 用 ， 同 时 还 可 以 理解 接口 是 怎么 工作 的 。 对 于 Linux 的 系统 调用 ， 做 到 知 其 然 ， 知 其 所 以 然 。 


读者 对 象 


根据 本 书 的 内 容 ， 我 觉得 适合 以 下 几 类 读者 : 


' 在 Linux 应 用 层 方面 有 一 定 开发 经 验 的 程序 员 。 


' 对 Linux 内 核 有 兴趣 的 程序 员 。 


“ 热爱 Linux 内 核 和 开源 项 目的 技术 人 员 。 


如 何 阅读 本 书 


本 书 定位 为 APUE 的 补充 或 进 阶 读物 ， 所 以 假设 读者 已 具备 了 一 定 的 编程 基础 ， 对 Linux 环 境 也 有 所 了 解 ， 因 此 在 涉及 一 些 基本 概念 和 知识 时 ， 只 是 晴 旺 点 水 ， 简 和 
在 更 为 重要 的 部 分 ， 而 不 是 各 种 相关 图 书 均 有 讲解 的 基本 概念 上 。 所 以 如 果 你 是 初学 者 ， 建 议 还 是 先 学 习 APUE、( 语 言 编程 ， 并 且 在 : 


Linux 环 境 编程 涉及 的 领域 太 多 ， 很 难 有 某 个 人 可 以 在 Linux 的 各 个 领域 均 有 比较 深刻 的 认识 ， 尤 其 是 已 有 APUE 这 本 经 典 | 


FF， 这 几 本 书 每 本 都 阅读 了 好 几 遍 ， 而 这 也 为 我 进行 Linux 用 户 空间 的 开发 商定 
融会 贯通 。 在 阅读 了 一 定量 的 内 核 源码 之 后 ， 我 才 真正 理解 了 
局 限 一 一 APUE 和 UNP 毕 竟 是 针对 Unix 环 境 


FAPUE 风 格 的 技术 图 书 ， 同 时 还 要 在 Linux 环 境 下 ， 对 APUE 进 行 突破 。 大 言 不 刁 地 说 ， 我 期 待 这 本 书 可 以 作为 APUE 的 补 


进行 阐述 ， 同 时 还 引导 读者 分 析 该 接口 在 内 核 的 源码 实现 ， 使 得 


为 笔者 希望 把 更 多 的 笔墨 放 


有 一 定 的 操作 系统 知识 后 再 来 阅读 本 书 。 


， 所 以 本 书 是 由 高 峰 、 李 彬 两 个 人 共同 完成 的 。 


高 峰 负责 第 0、1、2、3、4、12、13、14、15 章 ， 李 彬 负责 第 5~11 章 。 两 位 不 同 的 作者 ， 在 写作 风格 上 很 难保 证 一 致 ， 如 果 给 各 位 读者 带 来 了 不 便 ， 在 此 给 各 位 先 道 个 歉 。 尽 管 是 由 两 个 人 共同 写 


作 ， 并 且 负 责 的 还 是 我 们 各 自 相对 擅长 的 领域 ， 


可 是 在 写作 的 过 程 中 我 们 仍然 感觉 到 很 吃力 ， 用 了 将 近 三 年 的 时 间 才 算 完 成 本 书 。 对 比 APUE， 本 书 一 方 | 


有 涵盖 APUE 涉 及 的 所 有 领域 ， 这 也 让 我 们 对 Stevens 大 师 更 加 敬佩 。 


本 书 使 用 的 Linux 内 核 源 代码 版 本 为 3.2.44 


勘误 和 支持 


gfree.wind@gmail.com， 期 待 您 的 指导 ! 


致 澳 


首先 要 感谢 伟大 的 Linux 内 核 创始 人 Linus， 


，glibc 的 源码 版 本 为 2.17。 


他 开创 了 一 个 影响 世界 的 操作 系统 。 


其 次 要 感谢 机 械 工业 出 版 社 华章 公司 的 编辑 杨 绣 国 老师 (Lisa) ， 感 谢 你 的 魄力 ， 敢 于 找 新 人 来 写作 ， 并 敢于 信任 新 人 ， 让 : 


们 生生 地 延长 到 了 将 近 三 年 的 时 间 ， 感 谢 你 在 写作 过 程 中 对 我 们 的 鼓励 和 帮助 。 


然后 要 感谢 我 的 搭档 李 彬 ， 在 我 加 入 当前 的 创业 公司 后 ， 只 有 很 少 的 空闲 时 间 和 精力 来 投入 写作 。 这 时 ， 是 李 彬 在 更 紧张 的 


精 。 没 有 李 彬 的 加 入 ， 本 书 很 可 能 就 半途 而 废 了 。 再 次 感谢 李 彬 ， 我 的 好 搭档 。 


最 后 我 要 感谢 我 的 亲人 。 感谢 我 的 父母 ， 没 有 你 们 的 培养 ， 绝 没有 我 的 今天 ;感谢 我 的 妻子 ， 没 有 你 的 支持 ， 就 没有 我 如 


在 深度 上 还 是 有 所 不 及 ， 另 一 方面 在 广度 上 还 是 没 


由 于 作者 的 水 平 有 限 ， 主 题 又 过 于 宏大 ， 书 中 难免 会 出 现 一 些 错 误 或 不 准确 的 地 方 ， 如 有 不 受 之 处 ， 恳 请 读者 批评 指正 。 如 果 你 发 现 有 什么 问题 ， 或 者 有 什么 疑问 ， 都 可 以 发 邮件 至 我 的 邮箱 


完成 这 么 大 的 一 个 项 目 。 感 谢 你 的 耐心 ， 正 常 的 一 年 


时 间 内 ,承担 了 本 书 的 一 


的 写作 时 间 ， 被 我 


认真 ， 对 质量 精益 求 


感谢 的 是 我 可 爱 的 女儿 高 一 涵 小 天 使 ， 你 的 诞生 为 我 带 来 了 无 尽 的 欢乐 和 动力 ! 


说 以 此 书 ， 献 给 我 最 亲爱 的 家 人 ， 以 及 众多 热爱 Linux 的 朋友 们 。 


第 0 章 “基础 知识 


有 业 上 的 进步 ; 


感谢 我 的 岳父 岳母 对 我 女儿 的 照顾 ， 使 我 没有 后 顾 之 忧 ; 最 后 要 


峰 
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基础 知识 是 构建 技术 大 厦 不 可 或 缺 的 稳定 基石 ， 


基础 知识 看 似 简单 ， 但 是 想 要 真正 理解 它们 ， 是 需 


花 一 番 功 夫 的 。 除 了 需 


因此 ， 本 书 首先 来 介绍 一 下 书 中 所 涉及 的 一 些 基础 知识 。 这 里 以 第 0 章 命 名 ， 表 了 明 我 们 要 注重 基础 ， 从 0 开始 ， 同 时 也 是 向 伟大 的 C 语 言 致敬 。 


积累 经 验 以 外 ， 更 需要 对 它们 进行 不 断 的 思考 和 理解 ， 这 样 ， 才 能 写 出 高 可 靠 性 的 程序 。 这 些 基 础 知识 很 多 都 可 以 独立 成 


文 ， 限 于 篇 幅 ， 这 里 只 能 是 简单 的 介绍 ， 都 是 笔者 根据 自己 的 经 验 和 理解 进行 的 总 结 和 概括 ， 相 信 对 读者 会 有 所 帮助 。 感 兴趣 的 朋友 可 以 自己 查找 更 多 的 资料 ， 以 得 到 更 准确 、 更 细致 的 介绍 。 


四 济 本 书 中 的 示例 代码 为 了 简洁 明了 ， 没 有 考虑 代码 的 健壮 性 ， 例 如 不 检查 函数 的 返回 值 、 使 用 全 局 变量 等 。 


0.1 


一 个 Linux 程 序 的 诞生 记 


一 本 编程 书籍 如 果 开篇 不 写 一 个 “hello world”， 就 违背 了 “自古 以 来 ”的 传统 了 。 因 此 本 节 也 将 以 hello world 为 例 来 说 明 一 个 Linux 程 序 的 诞生 过 程 ， 示 例 代 码 如 下 : 


#include <stdio.h> 
int main (void) 


{ 


} 


printf ("Hello world!\n"); 
return 0; 


下 


面 使 


gcc 生 成 可 执行 程序 : gcc-g-Wall 0_1_hello_ world.c-o hello_world。 这 样 ， 一 个 Linux 可 执行 程序 就 诞生 了 。 


整个 过 程 看 似 简单 ， 其 实 涉及 预 处 理 、 编 译 、 汇 编 和 链接 等 多 个 步骤 。 只 不 过 gcc 作 为 一 个 工具 集 自动 完成 了 所 有 的 步骤 。 下 面 就 分 别 来 看 看 其 中 所 涉及 的 各 个 步骤 。 


首先 来 了 解 一 下 什么 是 预 处 理 。 预 处 理 
文件 中 的 所 有 代码 都 会 在 #include 处 


0_1_hello_ world.c>0_1_hello_ world.i”， 可 得 到 预 处 理 后 的 文件 。 


于 处 理 预 处 理 命令 。 对 于 上 面 的 代码 来 说 ， 唯 一 的 预 处 理 命令 就 是 #include。 它 的 作用 是 将 头 文件 的 内 容 包 含 到 本 文件 中 。 注 意 ， 这 里 的 “包含 ” 指 的 是 该 头 
展开 。 可 以 通过 “gcc-E 0_1_hello_world.c” 在 预 处 理 后 自动 停止 后 面 的 操作 ， 并 把 预 处 理 的 结果 输出 到 标准 输出 。 因 此 使 用 “gcc-E 


理解 了 预 处 理 ， 在 出 现 一 些 常见 的 错误 上 时， 才能 明白 其 中 的 原因 。 比 如 ， 为 什么 不 能 在 头 文件 中 定义 全 局 变量 ? 这 是 因为 定义 全 局 变量 的 代码 会 存在 于 所 有 以 #include 包 含 该 头 文件 的 文件 中 ， 也 就 是 


说 所 有 的 这 些 文件 ， 都 会 定义 一 个 同样 的 全 局 变量 ， 这 样 就 不 可 避免 地 造成 了 冲突 。 


编译 环节 是 指 对 源 代码 进行 语法 分 析 ， 并 优化 产生 对 应 的 汇编 代码 的 过 程 。 同 样 ， 可 以 使 用 gcc 得 到 汇编 代码 ， 而 非 最 终 的 二 进 制 文件 ， 即 “gcc-S 0_1_hello world.c-o 0_1_hello world.s”。gcc 的 - 


3 选项 会 让 gcc 在 编译 完成 后 停止 后 面 的 工作 ， 这 样 只 会 产生 对 应 的 汇编 文件 。 


汇编 的 过 程 比较 简单 ， 就 是 将 源 代码 翻译 成 可 执行 的 指令 ， 并 生成 目标 文件 。 对 应 的 gcc 命 令 为 “gcc-c 0 1_hello_world.c-o 0 1_hello world.o” 。 


链接 是 生成 最 终 可 


执行 程序 的 最 后 一 个 步骤 ， 也 是 比较 复杂 的 一 步 。 它 的 工作 就 是 将 各 个 目标 文件 一 一 包括 库 文件 库 文件 也 是 一 种 目标 文件 ) 链接 成 一 个 可 执行 程序 。 在 这 个 过 程 中 ， 涉 及 的 概念 比 


较 多 ， 如 地 址 和 空间 的 分 配 、 符 号 解析 、 重 定位 等 。 在 Linux 环 节 下 ， 该 工作 是 由 GNU 的 链接 器 Id 完成 的 。 


实际 上 我 们 可 以 使 用 -v 选 项 来 查看 完整 和 详细 的 gcc 编 译 过 程 ， 命 令 如 下 。 


gcc -g -Wall -~v 0 1 hello word.c -0o hello world, 


由 于 输出 过 多 ， 此 处 就 不 粘贴 结果 了 。 感 兴趣 的 朋友 可 以 自行 执行 命令 ， 查 看 输出 。 通 过 -v 选 项 ， 可 以 看 到 gcc 在 背后 做 了 哪些 具体 的 工作 。 


0.2 程序 的 构成 


Linux 下 二 进 制 可 执行 程序 的 格式 一 般 为 ELF 格 式 。 以 0.1 节 的 hello world 为 例 ， 使 


readelf 查 看 其 ELF 格 式 ， 内 容 如 下 : 


ELF Header: 
Magic: 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 
Class: ELF32 


Data: 2's complement, little endian 

Version: 1 (current) 

OS/ABI: UNIX - System V 

ABI Version: 0 

Type: EXEC (Executable file) 

Machine: Intel 80386 

Version: 0x1 

Entry point address: 0x8048320 

Start of program headers: 52 (bytes into file) 
Start of section headers: 5148 (bytes into file) 
Flags: 0x0 

Size of this header: 52 (bytes) 

Size of program headers: 32 (bytes) 

Number of program headers: 9 

Size of section headers: 40 (bytes) 

Number of section headers: 

Section header string table index: 33 

Section Headers: 


Nr 


WOMnpWNPO 


Name Type Addr Off Size ES Flg Lk Inf Al 
NULL 00000000 000000 000000 00 000 

.interp PROGBITS 08048154 000154 000013 00 A 
.note.ABI-tag NOTE 08048168 000168 000020 00 
.note.gnu.build-i NOTE 08048188 000188 000024 
.gnu.hash GNU HASH 080481ac 0001ac 000020 04 
.dynsym DYNSYM 080481cc 0001lcc 000050 10 A6 
.dynstr STRTAB 0804821c 00021c 00004a 00 AO 
.gnu.version VERSYM 08048266 000266 00000a 02A502 


0 
A 
A 
生 
0 


站 :二 
004 
00A004 
504 
4 

1 


.gnu.version r VERNEED 08048270 000270 000020 00 A614 


.rel.dyn REL 08048290 000290 000008 08 A504 
.rel.plt REL 08048298 000298 000018 08 A5124 
.init PROGBITS 080482b0 0002b0 000024 00 MX 0 0 4 
.Plt PROGBITS 080482e0 0002e0 000040 04 MX 0 0 16 
.text PROGBITS 08048320 000320 000188 00 MX 0 0 1 
.fini PROGBITS 080484a8 0004a8 000015 00 AX 0 0 4 
.rodata PROGBITS 080484c0 0004c0 000015 00 R 0O 0 


4 
.eh frame hdr PROGBITS 080484d8 0004d8 000034 00 A004 
04 


.eh frame PROGBITS 0804850c 00050c 0000c4 00 R 0 
.init array INIT ARRAY 08049f08 000f08 000004 00 WA 0 
.fini array FINI ARRAY 08049f0c 000f0c 000004 00 WA 0 
.jcr PROGBITS 08049f10 000f10 000004 00 WA 004 


21] .dynamic DYNAMIC 08049f14 000f14 0000e8 08 WA 6 0 4 

22] .got PROGBITS 08049ffc 000ffc 000004 04 WA 0 0 4 

23] .got.plt PROGBITS 0804a000 001000 000018 04 IRO004 
24] .data PROGBITS 0804a018 001018 000008 00 WA 004 

25] .bss NOBITS 0804a020 001020 000004 00 WA 004 

26] .comment PROGBITS 00000000 001020 00006b 01 MS 0 01 
27] .debug aranges PROGBITS 00000000 00108b 000020 00 001 
28] .debug info PROGBITS 00000000 0010ab 000094 00 0 
29] .debug abbrev PROGBITS 00000000 00113f 000044 00 
30] .debug line PROGBITS 00000000 001183 000043 00 0 
31] .debug str PROGBITS 00000000 0011c6 0000cb 01 MS 
32] .debug loc PROGBITS 00000000 001291 000038 00 001 
33] .shstrtab STRTAB 00000000 0012c9 000151 00 001 

34] .symtab SYMTAB 00000000 0019bc 000490 10 35 51 4 

35] .strtab STRTAB 00000000 001le4c 00025a 00 001 


但 于 
0 0 
01 
已 -页 


段 ， 


由 于 输出 过 多 ， 后 面 的 结果 并 没有 完全 展示 出 来 。ELF 文 件 的 主要 内 容 就 是 由 各 个 section 及 symbol 表 组 成 的 。 在 上 面 的 section 列 表 中 ， 大 家 最 熟悉 的 应 该 是 text 段 、data 段 和 bss 段 。text 段 为 代码 
于 保存 可 执行 指令 。data 段 为 数据 段 ， 用 于 保存 有 非 0 初始 值 的 全 局 变量 和 静态 变量 。bss 段 用 于 保存 没有 初始 值 或 初 值 为 0 的 全 局 变量 和 静态 变量 ， 当 程序 加 载 时 ，bss 段 中 的 变量 会 被 初始 化 为 0。 


这 个 段 并 不 占用 物理 空间 一 一 因为 完全 没有 必要 ， 这 些 变量 的 值 固 定 初始 化 为 0， 因 此 何必 占用 宝贵 的 物理 空间 ? 


其 他 段 没 有 这 三 个 段 有 名 ， 下 面 来 介绍 一 下 其 中 一 些 比较 常见 的 段 


.debug 段 : 顾名思义 ， 用 于 保存 调试 信息 。 

“ dynamic 段 : 用 于 保存 动态 链接 信息 。 

“ fini 段 : 用 于 保存 进程 退出 时 的 执行 程序 。 当 进程 结束 上 时， 系统 会 自动 执行 这 部 分 代码 。 
“ init 段 : 用 于 保存 进程 启动 时 的 执行 程序 。 当 进程 启动 时 ， 系 统 会 自动 执行 这 部 分 代码 。 
. todata 段 : 用 于 保存 只 读数 据 ， 如 const 修 饰 的 全 局 变量 、 字 符 串 常量 。 


“ symtab 段 : 用 于 保存 符号 表 。 


其 中 ， 对 于 与 调试 相关 的 段 ， 如 果 不 使 用 -9 选项 ， 则 不 会 生成 ， 但 是 与 符号 相关 的 段 仍然 会 存在 ， 这 时 可 以 使 用 strip 去 掉 符 号 信息 ， 感 兴趣 的 朋友 可 以 自己 参考 strip 的 说 明 进 行 实验 。 一 般 在 嵌入 式 的 


产品 中 ， 为 了 减少 程序 占用 的 空间 ， 都 会 使 用 strip 去 掉 非 必要 的 段 。 


0.3 ”程序 是 如 何 “ 跑 ”的 


在 日 常 工作 中 ， 我 们 经 常会 说 “程序 “ 跑 ” 起 来 了 ”， 那 么 它 到 底 是 怎么 “ 跑 ” 的 呢 ? 在 Linux 环 境 下 ， 可 以 使 用 strace 跟 踪 系 统 调用 ， 从 而 帮助 自己 研究 系统 程序 加 载 、 运 行 和 退出 的 过 程 。 此 处 仍然 


以 hello_world 为 例 。 


strace ./hello world 


execve("./hello world", {["./hello world"], [/* 59 vars */]) = 0 

brk(0) = 0x872a000 

access("/etc/ld.so.nohwcap", F OK) = -1 ENOENT (No such file or directory) 

mmap2 (NULL, 8192, PROT "READ | PROT | WRITE, MAP PRIVATE |MAP ANONYMOUS, -1, 0) = 0xb7778000 

access("/etc/1d.so.preload", R OK) = -1 ENOENT (No such file or directory) 

open("/etc/ld.so.cache", O ) RDONLY |O CLOEXEC) = 3 

fstat64(3, {st mode=S sIFREG|0644, st size=80063, a //wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Text/.. =0 
mmap2 (NULL, 80063, PROT "READ, MAP PRIVATE 3 0 Oxb7764000 

close(3) = 0 

access("/etc/ld.so.nohwcap", F OK) = -1 ENOENT (No such file or directory) 


open ("/1ib/i386-linux-gnu/libc.so.6", O RDONLY|O CLOEXEC) = 3 

read (3, "\177ELF\1\1\1\0\0\0\O0\0\O\0\0\O\3\0\3\0\1\0\0\0000\226\1\0004\0\0\0"http: //wuw.hzcourse.com/resource/readBook?path=/openresources/teach : Ep ee dA 
fstat64(3, {st mode=S IFREG|0755, st size=1730024, http://www.hzcourse.com/resource/readBook?path=/openresources/teach t ebook/uncompressed/15735/OEBPS/Text/.. =0 

mmap2 (NULL, 1743580, BROT ”READ | PROT : EXEC, MAP PRIVATE |MAP_ DENYWRITE, 3, 0)= 0xb75ba000 

mprotect (0xb775d000, 4096, PROT NONE) =0 

mmap2 (0xb775e000, 12288, PROT "READ| PROT_WRITE, MAP_PRIVATE |MAP_FIXED|MAP DENYWRITE, 3, 0xla3) = 0xb775e000 

mmap2 (0xb7761000, 10972, PROT READ|PROT WRITE, MAP_PRIVATE |MAP FIXED|MAP ANONYMOUS, -1, 0) = 0xb7761000 


close(3) = 0 
mmap2 (NULL, 4096, PROT READ|PROT WRITE, MAP_PRIVATE|MAP ANONYMOUS, -1, 0) = 0xb75b9000 
set thread | area ({entry 1 number:-1 -> 6, base : addr:0xb75b9900，1imit: 1048575, seg_32bit:1, contents:0, read exec only:0, limit in pages:1, seg not present:0, useable:1}) = 0 


mprotect (0xb775e000, 8192, PROT " READ) = 0 

mprotect (0x8049000, 4096, PROT READ) =0 

mprotect (0xb779b000, 4096, PROT READ) =0 

munmap (0xb7764000, 80063) = 0 

fstat64(1, {st mode=S IFCHR|0620, st rdev=makedev (136, 3), http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/...}) = 0 
mmap2 (NULL, 4096, PROT READ|PROT WRITE, MAP PRIVATE | MAP_ANONYMOUS, -1, 0) = 0xb7777000 

write(1l, "Hello world! Wn", 13Hello world! 

) = 13 

exit group(0) = ? 


下 面 就 针对 strace 输 出 说 明 其 含义 。 在 Linux 环 境 中 ， 执 行 一 个 命令 时 ， 首 先是 由 shell 调 用 fork， 然 后 在 子 进程 中 来 真正 执行 这 个 命令 (这 一 过 程 在 strace 输 出 中 无 法 体现 ) 。strace 是 hello_world 开 始 


执行 后 的 输出 。 首 先是 调用 execve 来 加 载 hello_world， 然 后 Id 会 分 别 检查 ld.so.nohwcap 和 Id.so.preload。 其 中 ， 如 果 1ld.so.nohwcap 存 在 ， 则 Id 会 加 载 其 中 未 优化 版 本 的 库 。 如 果 Id.so.preload 存 在 ， 则 
ld 会 加 载 其 中 的 库 一 一 在 一 些 项 目 中 ， 我 们 需要 拦截 或 替换 系统 调用 或 C 库 ， 此 时 就 会 利用 这 个 机 制 ， 使 用 LD_PRELOAD 来 实现 。 之 后 利用 mmap 将 ld.so.cache 映 射 到 内 存 中 ，Id.so.cache 中 保存 了 库 的 路 


2 
径 ， 


出 "Hello world! \n"， 返 回 值 为 13， 它 表示 write 成 功 的 字符 个 数 。 最 后 调用 exit_group 退 出 程序 ， 此 时 参数 为 0， 表 示 程 序 退 出 的 状态 


这 样 就 完成 了 所 有 的 准备 工作 。 接 着 ld 加 载 < 库 一 一 libc.so.6， 利 用 mmap 及 mprotect 设 置 程序 的 各 个 内 存 区 域 ， 到 这 里 ， 程 序 运行 的 环境 已 经 完成 。 后 面 的 write 会 向 文件 描述 符 1 ( 即 标准 输出 ) 输 
此 例 中 hello-world 程 序 返 回 0 


0.4 背景 概念 介绍 


YA 有 | 


0.4.1 系统 调用 


系统 调用 是 操作 系统 提供 的 服务 ， 是 应 用 程序 与 内 核 通信 的 接口 。 在 x86 平 台 上 ， 有 多 种 陷入 内 核 的 途径 ， 最 早 是 通过 int 0x80 指 令 来 实现 的 ， 后 来 Intel 增 加 了 一 个 新 的 指令 sysenter 来 代替 int 0x80 


一 一 其 他 CPU 厂商 也 增加 了 类 似 的 指令 。 新 指令 sysenter 的 性 能 消耗 大 约 是 int 0x80 的 一 半 左 右 。 即 使 是 这 样 ， 相 对 于 普通 的 函数 调用 来 说 ， 系 统 调 用 的 性 能 消耗 也 是 巨大 的 。 所 以 在 追求 极致 性 能 的 程序 


中 ， 


都 在 尽力 避免 系统 调用 ， 壁 如 C 库 的 gettimeofday 就 避免 了 系统 调用 。 


户 空间 的 程序 默认 是 通过 栈 来 传递 参数 的 。 对 于 系统 调用 来 说， 内 核 态 和 用 户 态 使 用 的 是 不 同 的 栈 ， 这 使 得 系统 调用 的 参数 只 能 通过 寄存 器 的 方式 进行 传递 。 


有 心 的 朋友 可 能 会 想到 一 个 问题 : 在 写 代码 的 时 候 ， 程 序 员 根本 不 用 关心 参数 是 如 何 传递 的 ， 编 译 器 已 经 默默 地 为 我 们 做 了 一 切 一 一 压 栈 、 出 栈 、 保 存 返回 地 址 等 操作 ， 但 是 编译 器 如 何 知道 调用 的 函 


数 是 普通 函数 ， 还 是 系统 调用 呢 ? 如 果 是 后 者 ， 编 译 器 就 不 能 简单 地 使 用 栈 来 传递 参数 了 。 


为 了 解决 这 个 问题 ， 我 们 就 要 看 0.4.2 节 介绍 的 C 库 函数 了 。 


第 1 章 文件 MO 


文件 MO 是 操作 系统 不 可 或 缺 的 部 分 ， 也 是 实现 数据 持久 化 的 手段 。 对 于 Linux 来 说 ， 其 “一 切 皆 是 文件 ”的 思想 ， 更 是 突出 了 文件 在 Linux 内 核 中 的 重要 地 位 。 本 讲述 Linux 文 件 MO 部 分 的 系统 调 


@ 注 总 为 了 分 析 系 统 调用 的 实现 ， 从 本 章 开始 会 涉及 Linux 内 核 源 码 。 但 是 本 书 并 不 是 一 本 介绍 内 核 源码 的 书籍 ， 所 以 书 中 对 内 核 源码 的 分 析 不 会 面面俱到 。 分 析 内 核 源码 的 目的 是 为 了 更 好 地 理解 
系统 调用 ， 是 为 应 用 而 服务 的 。 因 此 ， 本 书 对 内 核 源码 的 追踪 和 分 析 ， 只 是 浅 尝 辆 止 。 


1.1 Linux 中 的 文件 


1.1.1 文件 、 文 件 描述 符 和 文件 表 


Linux 内 核 将 一 切 视 为 文件 ， 那 么 Linux 的 文件 是 什么 呢 ? 其 既 可 以 是 事实 上 的 真正 的 物理 文件 ， 也 可 以 是 设备 、 管 道 ， 甚 至 还 可 以 是 一 块 内 存 。 狭 义 的 文件 是 指 文件 系统 中 的 物理 文件 ， 而 广义 的 文件 
则 可 以 是 Linux 管 理 的 所 有 对 象 。 这 些 广义 的 文件 利用 VFS 机 制 ， 以 文件 系统 的 形式 挂 载 在 Linux 内 核 中 ， 对 外 提供 一 致 的 文件 操作 接口 。 


从 数值 上 看 ， 文 件 描述 符 是 一 个 非 负 整数 ， 其 本 质 就 是 一 个 句柄 ， 所 以 也 可 以 认为 文件 描述 符 就 是 一 个 文件 句柄 。 那 么 何 为 句柄 呢 ? 一 切 对 于 用 户 透 明 的 返回 值 ， 即 可 视 为 句柄 。 用 户 空间 利用 文件 描 
述 符 与 内 核 进 行 交 互 ; 而 内 核 拿 到 文件 描述 符 后 ， 可 以 通过 它 得 到 用 于 管理 文件 的 真正 的 数据 结构 。 


DO 


使 用 文件 描述 符 即 句柄 ， 有 两 个 好 处 : 一 是 增加 了 安全 性 ， 句 柄 类 型 对 用 户 完全 透明 ， 用 户 无 法 通过 任何 hacking 的 方式 ， 更 改 句柄 对 应 的 内 部 结果 ， 比 如 Linux 内 核 的 文件 描述 符 ， 只 有 内 核 才能 通过 
该 值得 到 对 应 的 文件 结构 ; 二 是 增加 了 可 扩展 性 ， 用 户 的 代码 只 依赖 于 句柄 的 值 ， 这 样 实际 结构 的 类 型 就 可 以 随时 发 生变 化 ， 与 句柄 的 映射 关系 也 可 以 随时 改变 ， 这 些 变化 都 不 会 影响 任何 现 有 的 用 户 代 


Linux 的 每 个 进程 都 会 维护 一 个 文件 表 ， 以 便 维护 该 进程 打开 文件 的 信息 ， 包 括 打 开 的 文件 个 数 、 每 个 打开 文件 的 偏 移 量 等 信息 。 


1.2 条 天 文件 


1.2.1 _ open 介绍 


open 在 手册 中 有 两 个 函数 原型 ， 如 下 所 示 : 


int open (Const char *pathname, int flags) 7 
int open (const char *pathname, int flags, mode t mode); 


这 样 的 函数 原型 有 些 违 背 了 我 们 的 直觉 。C 语 言 是 不 支持 函数 重 载 的 ， 为 什么 open 的 系统 调用 可 以 有 两 个 这 样 的 open 原 型 呢 ? 内 核 绝对 不 可 能 为 这 个 功能 创建 两 个 系统 调用 。 在 Linux 内 核 中 ， 实 际 上 
只 提供 了 一 个 系统 调用 ， 对 应 的 是 上 述 两 个 函数 原型 中 的 第 二 个 。 那 么 open 有 两 个 函数 原型 又 是 怎么 回 事 呢 ? 当 我 们 调用 open 函 数 时 ， 实 际 上 调用 的 是 glibc 封 装 的 函数 ， 然 后 由 glibc 通 过 自 陷 指 令 ， 进 行 
真正 的 系统 调用 。 也 就 是 说 ， 所 有 的 系统 调用 都 要 先 经 过 glibc 才 会 进入 操作 系统 。 这 样 的 话 ， 实 际 上 是 glibc 提 供 了 一 个 变 参 函数 open 来 满足 两 个 函数 原型 ， 然 后 通过 glibc 的 变 参 函数 open 实 现 真 正 的 系统 
调用 来 调用 原型 二 。 


可 以 通过 一 个 小 程序 来 验证 我 们 的 猜想 ， 代 码 如 下 : 


#include <sys/types.h> 

#include <sys/stat.h> 

#include <fcnt1.h> 

#include <unistd.h> 

int main (void) 

{ 
int fd = open("test open.txt", O CREAT, 0644, "test"); 
close (fd); 人 i 
return 0; 


} 


在 这 个 程序 中 ， 调 用 open 的 时 候 ， 传 入 了 4 个 参数 ， 如 果 open 不 是 变 参 函 数 ， 就 会 报错 ， 如 “too many arguments to function ‘open””。 但 是 请 看 下 面 的 编译 输出 : 


[fgao@fgao-ThinkPad-R52 chapter2]#gcc -g -Wall 2 2 1 test open.c 
[fgao@fgao-ThinkPad-R52 chapter2]# 


没有 任何 的 警告 和 错误 。 这 就 证 实 了 我 们 的 猜想 ，open 是 glibc 的 一 个 变 参 函数 。fcntl.h 中 open 函 数 的 声明 也 确定 了 这 点 : 


extern int open (_const char * file, int _oflag, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/...) _ nonnull ((1)) 


下 面 来 说 明 一 下 open 的 参数 : 


* pathname: 表示 要 打开 的 文件 路 径 。 


' flags: 用 于 指示 打开 文件 的 选项 ， 常 用 的 有 O_RDONLY、O_WRONLY 和 O_RDWR。 这 三 个 选项 必须 有 且 只 能 有 一 个 被 指定 。 为 什么 O_RDWR! =O_RDONLY|O_WRONLY 呢 ?Linux 环 境 


中 ，O_RDONLY 被 定义 为 0，O_WRONLY 被 定义 为 1， 而 O_RDWR 却 被 定义 为 2。 之 所 以 有 这 样 违 反常 规 的 设计 遗留 至 今 ， 就 是 为 了 兼容 以 前 的 程序 。 除 了 以 上 三 个 选项 ，Linux 平 台 还 支持 更 多 的 选 
项 ，APUE 中 对 此 也 进行 了 介绍 。 


“ mode: 只 在 创建 文件 时 需要 ， 用 于 指定 所 创建 文件 的 权限 位 〈 还 要 受到 umask 环 境 变 量 的 影响 ) 。 


1.3 “creat 简 介 


加 


creat 函 数 用 于 创建 一 个 新 文件 ， 其 等 价 于 open (pathname，O_WRONLY|O_CREATIO_TRUNC，mode) 。APUE 介 绍 了 引入 creat 的 原 


由 于 历史 原因 ， 早 期 的 Unix 版 本 中 ，open 的 第 二 个 参数 只 能 是 0、1 或 者 2。 这 样 就 没有 办 法 打开 一 个 不 存在 的 文件 。 因 此 ， 一 个 独立 系统 调用 creat 被 引入 ， 用 于 创建 新 文件 。 现 在 的 open 函 数 ， 通 过 使 用 
O_CREAT 和 O_TRUNC 选 项 ， 可 以 实现 cteat 的 功能 ， 因 此 creat 已 经 不 是 必要 的 了 。 


内 核 creat 的 实现 代码 如 下 所 示 : 


SYSCALL DEFINE2 (creat, const char _ user * pathname, int, mode) 
{ 

return sys_open (pathname, O CREAT | O WRONLY | O_TRUNC, mode); 
i 


这 样 就 确定 了 creat 无 非 是 open 的 一 种 封装 实现 。 


1.4 关闭 文件 


1.4.1 close 介 绍 


close 用 于 关闭 文件 描述 符 。 而 文件 描述 符 可 以 是 普通 文件 ， 也 可 以 是 设备 ， 还 可 以 是 socket。 在 关闭 时 ，VFS 会 根据 不 同 的 文件 类 型 ， 执 行 不 同 的 操作 。 


下 面 将 通过 跟踪 close 的 内 核 源码 来 了 解 内 核 如 何 针 对 不 同 的 文件 类 型 执行 不 同 的 操作 。 


1.5 文件 偏 移 


文件 偏 移 是 基于 某 个 打开 文件 来 说 的 ， 一 般 情况 下 ， 读 写 操作 都 会 从 当前 的 偏 移 位 置 开 始 读 写 (所 以 read 和 write 都 没有 显 式 地 传 入 偏 移 量 ) ， 并 且 在 读 写 结束 后 更 新 偏 移 量 。 


1.6 读 取 文 件 


Linux 中 读 取 文件 操作 时 ， 最 常用 的 就 是 read 函 数 ， 其 原型 如 下 : 


ssize t read (int fd, void *buf, size t count); 


read 尝 试 从 fd 中 读 取 count 个 字 节 到 buf 中 ， 并 返回 成 功 读 取 的 字 节 数 ， 同 时 将 文件 偏 移 向 前 移动 相同 的 字 节 数 。 返 回 0 的 时 候 则 表示 已 经 到 了 “文件 尾 ”。read 还 有 可 能 读 取 比 count 小 的 字 节 数 。 


使 用 read 进 行 数据 读 取 时 ， 要 注意 正确 地 处 理 错误 ， 也 是 说 read 返 回 -1 时 ， 如 果 errno 为 FAGAIN、EWOULDBLOCK 或 EINTR， 一 般 情况 下 都 不 能 将 其 视 为 错误 。 因 为 前 两 者 是 由 于 当前 fd 为 非 阻塞 且 
没有 可 读数 据 时 返回 的 ， 后 者 是 由 于 read 被 信号 中 断 所 造成 的 。 这 两 种 情况 基本 上 都 可 以 视 为 正常 情况 。 


1.7 写 入 文件 


Linux 中 写 入 文件 操作 ， 最 常用 的 就 是 write 函数 ， 其 原型 如 下 : 


ssize t write (int fd，const void *buf, size t count); 


write 尝 试 从 buf 指 向 的 地 址 ， 写 入 count 个 字 节 到 文件 描述 符 fd 中 ， 并 返回 成 功 写 入 的 字 节 数 ， 同 时 将 文件 偏 移 向 前 移动 相同 的 字 节 数 。write 有 可 能 写 入 比 指定 count 少 的 字 节 数 。 


1.8 文件 的 原子 读 写 


使 用 O_APPEND 可 以 实现 在 文件 的 未 尾 原子 追加 新 数据 ，Linux 还 提供 pread 和 pwrite 从 指定 偏 移 位 置 读 取 或 写 入 数据 。 


它们 的 实现 很 简单 ， 代 码 如 下 : 


SYSCALL _ DEFINE (pread64) (unsigned :int fd，char _ user *buf, 
size t count, loff t pos) 


{ 


struct file *file; 
ssize t ret = -EBADF; 
int fput needed; 
if (pos < 0) 
return -EINVAL; 
file = fget light (fd, &fput needed); 
if (file) { 加 
ret = -ESPIPE; 
if (file->f mode & FMODE PREAD) 
ret = vfs read(file, buf, count, gpos); 
fput light (file, fput needed); 


return ret; 


看 到 这 段 代 码 ， 是 不 是 有 一 种 似曾相识 的 感觉 ? 让 我 们 再 来 回顾 一 下 read 的 实现 ， 代 码 如 下 所 示 。 


/* 得 到 文件 的 当前 偏 移 量 */ 

loff t pos = file pos read(file); 

/* 利用 vfs 进 行 真正 的 read */ 

ret = vfs read(file, buf, count, &pos); 
/* 更 新 文件 偏 移 量 */ 

file pos write(file, pos); 


这 就 是 它 与 read 的 主 


pwrite 的 实现 与 pread 类 似 ， 在 此 就 不 再 重复 描述 了 。 


1.9 “文件 描述 符 的 复制 


Linux 提 供 了 三 个 复制 文件 描述 符 的 系统 调 有 


， 分 别 为 : 


区 别 。pread 不 会 从 文件 表 中 获取 当前 偏 移 ， 而 是 直接 使 用 用 户 传递 的 偏 移 量 ， 并 且 在 读 取 完毕 后 ， 不 会 更 改 当前 文件 的 偏 移 量 。 


int dup (int oldfd) ; 
int dup2 (int oldfd, int newfd) 
int dup3 (int oldfd, int newfd, int flags) 7 


其 中 : 


“dup 会 使 用 一 个 最 小 的 未 用 文件 描述 符 作 为 复制 后 的 文件 描述 符 。 


“ dup2 是 使 用 用 户 指 定 的 文件 描述 符 newfd 来 复制 oldfd 的 。 如 果 new 亿 已 经 是 打开 的 文件 描述 符 ，Linux 会 先 关闭 newfd， 然 后 再 复制 oldfd。 


“ 对 于 dup3， 只 有 定义 了 feature 宏 “_GNU_SOURCE” 才 可 以 使 用 ， 它 比 dup2 多 了 一 个 参数 ， 可 以 指定 标志 
原因 与 open 类 似 ， 可 以 在 进行 dup 操 作 的 同时 原子 地 将 车 设 置 为 O_CLOEXEC， 从 而 避免 将 文件 内 容 暴 露 给 予 进程 。 


不 过 目前 仅仅 支持 O_CLOEXEC 标 志 ， 可 在 newfd 上 设置 O_CLOEXEC 标 志 。 定 义 dup3 的 


为 什么 会 有 dup、dup2、dup3 这 种 像 兄 弟 一 样 的 系统 调用 呢 ? 这 是 因为 随 着 软件 工程 的 日 益 复杂 ， 已 有 的 系统 调用 已 经 无 法 满足 需求 ， 或 者 存在 安全 隐患 ， 这 时 ， 就 需要 内 核 针 对 已 有 问题 推出 新 的 


接口 。 


话说 在 很 久 以 前 ， 程 序 员 在 写 daemon 服 务 程序 时 ， 基 本 上 都 有 这 样 的 流程 : 首先 关闭 标准 输出 stdout、 标 准 出 错 stderr， 然 后 进行 dup 操 作 ， 将 stdout 或 stderr 重 定向 。 但 是 在 多 线程 程序 成 为 主流 以 


后 ， 由 于 close 和 dup 操 作 不 是 原子 的 ， 这 就 造成 了 在 某 些 情况 下 ， 重 定向 会 失败 。 


接口 的 行为 。 


下 面 先 看 dup 的 实现 ， 如 下 所 示 : 


SYSCALL _ DEFINE1 (dup, unsigned int, fildes) 
{ 


int ret = -EBADF'; 
/* 必须 先 得 到 文件 管理 结构 file， 同 时 也 是 对 描述 符 fildes 的 检查 */ 
struct file *file = fget raw(fildes); 
if (file) { 
/* 得 到 一 个 未 使 用 的 文件 描述 符 */ 
ret = get unused fqd(); 
if (ret >= 0) { 
/* 将 文件 描述 符 与 于 le 指针 关联 起 来 */ 
fd install (ret, file); 
} 
else 
fput (file); 


return ret; 


此 就 引入 了 dup2 将 close 和 dup 合 为 一 个 系统 调 
O 〇 _CLOEXEC 的 介绍 。 在 多 线程 中 进行 fork 操 作 时 ，dup2 同 样 会 有 让 相同 的 文件 描述 符 暴 露 的 风险 ，dup3 也 就 随 之 诞生 了 。 这 三 个 系统 调 
从 这 个 dup 的 发 展 过 程 来 看 ， 我 们 也 可 以 领会 到 编写 健壮 代码 的 不 易 。 正 如 前 文 所 述 ， 对 于 一 个 现代 接口 ， 一 般 都 会 有 一 个 flag 标 志 参 数 ， 这 样 既 可 以 保证 兼容 性 ， 还 可 以 通过 引 


， 以 保证 原子 性 ， 然 而 这 依然 有 问题 。 大 家 可 以 回顾 1.2.2 节 中 对 
看 起 来 有 些 匈 余 重 复 ， 但 实际 上 它们 也 是 软件 工程 发 展 的 结果 。 
新 的 标志 来 改善 或 纠正 


然后 ， 再 看 看 fd_install 的 实现 ， 代 码 如 下 所 示 : 


void fd install (unsigned int fd, struct file *file) 
{ 
struct files struct *files = current->files; 
struct fdtable *fdt; 
/* 对 文件 表 进 行 保护 */ 
spin lock(&files->file lock); 
/* 得 到 文件 表 */ 
fdt = files fdtable (files); 
BUG ON (fdt->fd[fd] != NULL); 
/* 让 文件 表 中 fd 对 应 的 指针 等 于 该 文件 关联 结构 file */ 
rcu assign pointer (fdt->fd[fd]，file)7 
spin unlock (&files->file lock); 


在 dup 中 调用 get_unused _ fd， 只 是 得 到 一 个 未 


Linux 总 是 尝试 给 用 户 最 小 的 未 


在 fd_install 中 ，fd 与 file 的 关联 是 利 


的 文件 描述 符 ， 那 么 如 何 实现 在 dup 接 口中 使 


文件 描述 符 ， 所 以 get_unused fd 得 到 的 文件 描述 符 始终 是 最 


最 小 的 未 


~ 
Fa 


文件 描述 符 呢 ? 这 就 需要 回顾 1.4.2 节 中 总 结 过 的 Linux 文 件 描述 符 的 选择 策略 了 。 


的 可 用 文件 描述 符 。 


fd 来 作为 指针 数组 的 索引 的 ， 从 而 让 对 应 的 指针 指向 file。 对 于 dup 来 说 ， 这 意味 着 数组 中 两 个 指针 都 指向 了 同一 个 file。 而 file 是 进程 中 真正 的 管理 文件 的 结构 ， 


文件 偏 移 等 信息 都 是 保存 在 file 中 的 。 这 就 意味 着 ， 当 使 用 oldfd 进 行 读 写 操作 时 ， 无 论 是 oldfd 还 是 newfd 的 文件 偏 移 都 会 发 生变 化 。 


再 来 看 一 下 dup2 的 实现 ， 如 下 所 示 : 


SYSCALL DEFINE2 (dup2, unsigned int, oldfd, unsigned int, newfd) 


/* 如 果 oldfd 与 newfd 相 等 ， 这 是 一 种 特殊 的 情况 */ 
if (unlikely (newfd == oldfd)) { /* corner case */ 
struct files struct *files = current->files; 
int retval = oldfd; 
/* 
检查 oldfd 的 合法 性 ， 如 果 是 合法 的 fd， 则 直接 返回 oldfd 的 值 ; 
如 果 是 不 合法 的 ， 则 返回 EBADF 
A 
rcu_ read lock(); 
if (!fcheck files (files, oldfd)) 
retval = -EBADF; 
rcu read unlock(); 
return retval; 


} 
/* 如 果 oldfd 与 newfd 不 同 ， 则 利用 sys_dup3 来 实现 dup2 */ 
return sys_dup3 (oldfd, newfd, 0); 


再 来 查看 一 下 dup3 的 实现 代码 ， 如 下 所 示 


SYSCALL DEFINE3 (dup3, unsigned int, oldfd, unsigned int, newfd, int, flags) 
{ 
int err = -EBADF'; 
struct file * file, *tofree; 
struct files struct * files = current->files; 
struct fdtable *fdt; 
/* 对 标志 flags 进 行 检查 ， 支 持 O_CLOEXEC */ 
if ((flags & ~O CLOEXEC) != 0) 
return -EINVAL; 
/* 与 dup2 不 同 ， 当 oldfd 与 newfd 相 同 的 时 候 ，qup3 返 回 错误 */ 
if (unlikely (oldfd == newfd) ) 
return -EINVAL; 
spin lock(&files->file lock); 
/* 根据 newfd 决 定 是 否 需要 扩展 文件 表 的 大 小 */ 
err = expand files(files, newfd); 
/* 
检查 oldfd， 如 果 是 非法 的 ， 就 直接 返回 
和 如 果 是 非法 的 ， 就 不 需要 扩展 文件 表 了 
file = fcheck(oldfd) 
if (unlikely(!file)) 
goto Ebadf; 
if (unlikely(err < 0)) { 
if (err == -EMFILE) 
goto Ebadf; 
goto out unlock; 
} 
err = -EBUSY; 
/* 得 到 文件 表 */ 
fdt = files fdtable (files); 
/* 通过 newfd 得 到 对 应 的 file 结 构 */ 
CU = fqdt->fd[newfd]; 
六 
tofree 是 NULL， 但 是 newfd 已 经 分 配 的 情况 
四 
/ 
if (!tofree && FD ISSET (newfd, fdt->open fds)) 
goto out unlock; 
/* ”增加 file 的 引用 计数 */ 
get filel(file); 
/* 特 文 件 表 newfd 对 应 的 指针 指向 file */ 
人 >. Eileys 


将 newfd 加 到 打开 文件 的 位 图 中 
如 果 newfd 已 经 是 一 个 合法 的 fd， 重 复 设置 位 图 则 没有 影响 ; 
如 果 newfd 没 有 打开 ， 则 必须 将 其 加 入 位 图 中 
为 什么 不 对 newfd 进 行 检 查 呢 ? 因为 检查 比 设置 位 图 更 消耗 CEU 
ED_SET (newfd, fdt->open fds); 
人 
如 果 flags 设 置 了 O CLOEXEC， 则 将 newfd 加 到 close on exec 位 图 ; 
如 果 没 有 设置 ， 则 清除 close_on_exec 位 图 中 对 应 的 位 
3 
if (flags & O CLOEXEC) 
FD SET (newfd, fdt->close on exec); 
else oe 
FD CLR (newfd, fdt->close on exec); 
spin unlock (&files->file lock); 
/* 如 果 tofree 不 为 空 ， 则 需要 关闭 newfd 之 前 的 文件 */ 
if (tofree) 
filp close (tofree, files); 
return newfd; 
Ebadf: 
err = -EBADF; 
out unlock: 
“spin unlock (gfiles->file lock); 
return err; 


1.10 ”文件 数据 的 同步 


为 了 提高 性 能 ,操作 系统 会 对 文件 的 I/O 操 作 进 行 缓存 处 理 。 对 于 读 操作 ， 如 果 要 读 取 的 内 容 已 经 存在 于 文件 缓存 中 ， 就 直接 读 取 文件 缓存 。 对 于 写 操作 ， 会 先 将 修改 提交 到 文件 缓存 中 ， 在 合适 的 时 机 
或 者 过 一 段 时 间 后 ， 操 作 系统 才 会 将 改动 提交 到 磁盘 上 。 


Linux 提 供 了 三 个 同步 接 


void sync (void); 
int fsync (int fq); 
int fdatasync (int fd); 


APUE 上 说 sync 只 是 让 所 有 修改 过 的 缓存 进入 提交 队列 ， 并 不 用 等 待 这 个 工作 完成 。Linux 手 册 上 则 表示 从 1.3.20 版 本 开始 ，Linux 就 会 一 直 等 待 ， 直 到 提交 工作 完成 。 


实际 情况 到 底 是 怎样 的 呢 ， 让 代码 告诉 我 们 真相 ， 具 体 如 下 : 


SYSCALL DEFINEO (Sync) 


{ 
/* 唤醒 后 台 内 核 线程 ， 将 “ 脏 ” 缓 存 冲 刷 到 磁盘 上 */ 
wakeup_ flusher threads (0, WB REASON SYNC); 
/# 


为 什么 要 调用 两 次 sync_filesystems 呢 ? 

这 是 一 种 编程 技巧 ， 第 一 次 sync_filesystems (0) ， 参 数 0 表示 不 等 待 ， 可 以 
迅速 地 将 没有 上 锁 的 inode 同 步 。 第 二 次 sync_filesystems (1) ， 参 数 1 表示 等 待 。 
对 于 上 锁 的 inode 会 等 待 到 解锁 ， 再 执行 同步 ， 这 样 可 以 提高 性 能 。 因 为 第 一 次 操作 


上 锁 的 inode 很 可 能 在 第 一 次 操作 结束 后 ， 就 已 经 解锁 ， 这 样 就 避免 了 等 待 
# 


sync filesystems (0); 
sync filesystems (1); 
/* 


pl 那么 因为 此 处 刚刚 做 完 同步 ， 因 此 可 以 停 掉 后 台 同步 定时 器 
# 
if (unlikely (laptop mode)) 


laptop_sync_completion(); 
return 0; 


再 看 一 下 sync filesystems->iterate_supers->sync_one sb->_sync filesystem， 代 码 如 下 : 


static int _ sync filesystem(Struct super block *sb, int wait) 
{ 区 
* This should be safe, as we require bdi backing to actually 
* write out data in the first place 
be 
if (sb->s bdi 一 &noop backing dev info) 
return 0; 
/* 磁盘 配额 同步 */ 
if (sb->s qcop && sb->s_qcop->quota sync) 
Sb->s_qcop->quota_sync (sb, -1, wait); 
/* 
如 果 wait 为 true， 则 一 直 等 待 直到 所 有 的 脏 inode 写 入 磁盘 
如 果 wait 为 false， 则 启动 脏 ijnode 回 写 工 作 , 但 不 必 等 待 到 结束 
a 
if (wait) 
sync inodes_ sb (sb) 7 
else 
writeback inodes sb(sb, WB REASON SYNC); 
/* 如 果 该 文件 系统 定义 了 自己 的 同步 操作 ， 则 执行 该 操作 */ 
if (sb->s_op->sync fs) 
sb->s_op->sync fs (sb, wait); 
/* 调用 block 设 备 的 flush 操 作 ， 真 正 地 将 数据 写 到 设备 上 */ 
return _ sync blockdev (sb->s bdev, wait); 


从 sync 的 代码 实现 上 看 ，Linux 的 sync 是 阻塞 调用 ， 这 里 与 APUE 的 说 明 是 不 一 样 的 。 


下 面 来 看 看 fsync 与 fdatasync，fsync 只 同步 fd 指定 的 文件 ， 并 且 直 到 同步 完成 才 返回 。fdatasync 与 fsync 类 似 ， 但 是 其 只 同步 文件 的 实际 数据 内 容 ， 和 会 影响 后 面 数 据 操 作 的 元 数据 。 而 fsync 不 仅 同 
步 数 据 ， 还 会 同步 所 有 被 修改 过 的 文件 元 数据 ， 代 码 如 下 所 示 : 


SYSCALL DEFINE1 (fsync, unsigned int，fd) 
{ 
return do fsync(fd, 0); 


} 
SYSCALL DEFINE] (fdatasync, unsigned int, fd) 
{ 

return do fsync(fd, 1); 


有 实 上 ， 真 正 进行 工作 的 是 do_fsync， 代 码 如 下 所 示 : 


static int do fsync(unsigned int fd, int datasync) 
{ 
struct file *file; 
int ret = -EBADF'; 
/* 得 到 全 le 管理 结构 */ 
file = fget (fd); 
if (file) { 
/* 利用 vfs 执 行 Sync 操 作 */ 
ret = vfs fsync (file, datasync); 
fput (file); 


return ret; 


进入 vfs fsync->vfs fsync_range， 代 码 如 下 : 


int vfs fsync range(struct file *file, loff t start, loff t end, int datasync) 


/* 调用 具体 操作 系统 的 同步 操作 */ 
if (!file->f op || !file->f op->fsync) 
return -EINVAL; 本 
return file->f op->fsync (file, start, end, datasync); 


真正 执行 同步 操作 的 fsync 是 由 具体 的 文件 系统 的 操作 函数 file_operations 决 定 的 。 下 面 选择 一 个 常用 的 文件 系统 同步 函数 generic file fsync， 代 码 如 下 。 


int generic file fsync (Struct file *file, loff t start, loff t end, 
int datasync) 
{ 
struct inode *inode = file->f mapping->host; 
int err; 
int ret; 
/* 同步 该 文件 缓存 中 处 于 start 到 end 范 围 内 的 脏 页 */ 
err = filemap write and wait range (inode->i mapping, start, end); 
if (err) 加 站 加 
return err? 
mutex lock(&inode->i mutex); 
/下 同步 该 inode 对 应 的 缓存 */ 
ret = sync mapping buffers (inode->i mapping); 
/* inode 状 态 没有 变化 ， 无 需 同步 ， 可 以 直接 返回 */ 
if (!(inoge->i state & I DIRTY)) 
goto out; 
/* 如 果 是 fdatasync 则 仅 做 数据 同步 ， 并 且 若 该 inode 没 有 影响 任何 数据 方面 操作 的 变化 〈 比 如 文件 长 度 ) ， 则 可 以 直接 返回 */ 
if (datasync && !(inode->i state & I DIRTY _ DATASYNC) ) 
goto out; 
六 


同步 jnode 的 元 数据 


err = sync inode metadata (inode, 1); 
if (ret == 0) 
Xet = BEL 
out: 
mutex unlock (&inode->i mutex); 
return ret; 


从 上 面 的 代码 可 以 看 出 ，fdatasync 的 性 能 会 优 于 fsync。 在 不 需要 同步 所 有 元 数据 的 情况 下 ， 选 择 fdatasync 会 得 到 更 好 的 性 能 。 只 有 在 inode 被 设置 了 |_DIRTY_DATASYNC 标 志 时 ，fdatasync 才 需要 
同步 inode 的 元 数据 。 那 么 inode 何 时 会 被 设置 |_DIRTY_DATASYNC 这 个 标志 呢 ?” 比 如 使 用 文件 截断 truncate 或 ftruncate 时 ;通过 在 源码 中 搜索 |_DIRTY_DATASYNC 或 mark_inode_dirty 时 也 会 给 inode 设 
该 标志 位 。 而 调用 mark_inode dirty 的 地 方 就 太 多 了 ， 这 里 就 不 一 一 列举 了 。 


四 ;说 sync、fsync 和 fdatasync 只 能 保证 Linux 内 核对 文件 的 缓冲 被 冲刷 了 ， 并 不 能 保证 数据 被 真正 写 到 磁盘 上 ， 因 为 磁盘 也 有 自己 的 缓存 。 


1.11 文件 的 元 数据 


1.10 节 中 我 们 提 到 了 文件 元 数据 ， 那 么 什么 是 文件 的 元 数据 呢 ? 其 包括 文件 的 访问 权限 、 上 次 访问 的 时 间 戳 、 所 有 者 、 所 有 组 、 文 件 大 小 等 信息 。 


1.12 文件 截断 


1.12.1 truncate 与 fruncate 的 简单 介绍 


Linux 提 供 了 两 个 截断 文件 的 APl: 


#include <unistd.h> 

#include <sys/types.h> 

int truncate (const char *path, off t length); 
int ftruncate (int fd, off t length); 


两 者 之 间 的 唯一 区 别 在 于 ，truncate 截 断 的 是 路 径 path 指 定 的 文件 ，ftruncate 截 断 的 是 fd 引用 的 文件 。 


“截断 ”给 人 的 感觉 是 将 文件 变 短 ， 即 将 文件 大 小 缩短 至 length 长 度 。 实 际 上 ，length 可 以 大 于 文件 本 身 的 大 小 ， 这 时 文件 长 度 将 变 为 length 的 大 小 ， 扩 充 的 内 容 均 被 填充 为 0。 需 要 注意 的 是 ， 尽 管 
ftruncate 使 用 的 是 文件 描述 符 ， 但 是 其 并 不 会 更 新 当前 文件 的 偏 移 。 


第 2 章 ”标准 MO 库 


前 面 的 章节 介绍 的 是 Linux 的 系统 调用 。 本 章 将 从 标准 MO 库 开 始 讲解 Linux 环 境 编程 中 不 可 或 缺 的 C 库 。 在 学 习 和 分 析 标准 MO 库 的 同时 ， 与 Linux 的 MO 系统 调用 进行 比较 ， 可 以 加 深 对 两 者 的 认识 和 理 
解 。 


2.1 _ stdin、stdout 和 stderr 


当 Linux 新 建 一 个 进程 时 ， 会 自动 创建 3 个 文件 描述 符 0、1 和 2， 分 别 对 应 标准 输入 、 标 准 输出 和 错误 输出 。C 库 中 与 文件 描述 符 对 应 的 是 文件 指针 ， 与 文件 描述 符 0、1 和 2 类 似 ， 我 们 可 以 直接 使 用 文件 
指针 stdin、stdout 和 stderr。 那 么 这 是 否 意 味 着 stdin、stdout 和 stderr 是 “自动 打开 ”的 文件 指针 呢 ? 


查看 C 库 头 文件 stdio.h 中 的 源码 : 


typedef struct _IO_FILE FILE; 
/* Standard streams. */ 


extern struct _IO FILE *stdin; /* Standard input stream. */ 
extern struct IO FILE *stdout; /* Standard output stream. */ 
extern struct IO FILE *stderr; /* Standard error output stream. */ 


#ifdef STDC 

/* C89/C99 say they're macros. Make them happy. */ 
#define stdin stdin 

#define stdout stdout 

#define stderr stderr 

#endif 


从 上 面 的 源码 可 以 看 出 ，stdin、stdout 和 stderr 确 实 是 文件 指针 。 而 C 标 准 要 求 stdin、stdout 和 stderr 是 宏 定义 ， 所 以 在 C 库 的 代码 中 又 定义 了 同名 宏 。 


那么 stdin、stdout 和 stderr 又 是 如 何 定义 的 呢 ? 定义 代码 如 下 : 


_IO FILE *stdin = (FILE *) & IO 2 1 stdin ; 
_IO FILE *stdout = (FILE *) 1 stdout ; 
_IO FILE *stderr = (FILE *) 1 stderr ; 


继续 查看 IO_2_1_stdin 等 的 定义 ， 代 码 如 下 : 


DEF STDFILE( IO 2 1 stdin , 0, 0, _IO NO WRITES); 
DEF_STDFILE (10 2 1 stdout , 1, & 10 2 1 _ stdin ，_IO NO READS); 
DEF_ STDFILE( 10 2 1 stderr , 2, & 10 2 1 stdout , IO NO READS+ IO UNBUFFERED); 


DEF_STDFILE 是 一 个 宏 定义 ， 用 于 初始 化 C 库 中 的 FILE 结 构 。 这 里 IO_2 1 stdin、_IO_2 1_stdout 和 _1O_2_1_stderr 这 三 个 FILE 结 构 分 别 用 于 文件 描述 符 0、1 和 2 的 初始 化 ， 这 样 C 库 的 文件 指针 就 与 系 
统 的 文件 描述 符 互相 关联 起 来 了 。 大 家 注意 最 后 的 标志 位 ，stdin 是 不 可 写 的 ，stdout 是 不 可 读 的 ， 而 stderr 不 仅 不 可 读 ， 且 没有 缓存 。 


通过 上 面 的 分 析 ， 可 以 得 到 一 个 结论 : stdin、stdout 和 stderr 都 是 FILE 类 型 的 文件 指针 ， 是 由 C 库 静态 定义 的 ， 直 接 与 文件 描述 符 0、1 和 2 相关 联 ， 所 以 应 用 程序 可 以 直接 使 用 它们 。 


2.2 I/O 缓 存 引 出 的 趣 题 


C 库 的 MO 接口 对 文件 VO 进 行 了 封装 ， 为 了 提高 性 能 ， 其 引入 了 缓存 机 制 ， 共 有 三 种 缓存 机 制 : 全 缓存 、 行 缓存 及 无 缓存 。 


“ 全 缕 存 一 般 用 于 访问 真正 的 磁盘 文件 。C 库 会 为 文件 访问 申请 一 块 内 存 ， 只 有 当 文 件 内 容 将 缓存 填 满 或 执行 冲刷 函数 flush 时 ，C 库 才 会 将 缓存 内 容 写 入 内 核 中 。 
“ 行 缓存 一 般 用 于 访问 终端 。 当 遇 到 一 个 换行 符 时 ， 就 会 引发 真正 的 I/O 操 作 。 需 要 注意 的 是 ，C 库 的 行 缓存 也 是 固定 大 小 的 。 因 此 ， 当 缓存 已 满 ， 即 使 没有 换行 符 时 也 会 引发 I/O 操 作 。 


: 无 缓存 ， 顾 名 思 义 ，C 库 没有 进行 任何 的 缓存 。 任 何 C 库 的 I/O 调 用 都 会 引发 实际 的 I/O 操 作 。 


C 库 提供 了 接口 ， 用 于 修改 默认 的 缓存 行为 ， 相 关 代码 如 下 : 


#include <stdio.h> 

void setbuf (FILE *stream, char *buf); 

void setbuffer (FILE *stream, char *buf, size t size); 

void setlinebuf (FILE *stream); 和 

int setvbuf (FILE *stream, char *buf, int mode, size t size); 


下 面 看 一 个 跟 C 库 缓存 相关 的 趣 题 。 


#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
int main (void) 


Printf ("Hello "); 

if (0 == fork()) { 
Brintf ("vehila\n") ys 
return 0; 

printf ("parent\n"); 

return 0; 


其 输出 结果 是 什么 ? 正确 的 结果 是 : 


Hello parent 
Hello child 


或 者 : 


Hello child 
Hello parent 


之 所 以 是 这 样 的 结果 ， 就 是 因为 背后 的 行 缓存 。 执 行 printf ("Hello") 时 ， 因 为 printf 是 向 标准 输出 打印 的 ， 因 此 使 用 的 是 行 缓存 。 字 符 串 Hello 没 有 换行 符 ， 所 以 并 没有 真正 的 MO 输出 。 当 执行 fork 
时 ， 子 进程 会 完全 复制 父 进程 的 内 存 空间 ， 因 此 字符 串 Hello 也 存在 于 子 进 程 的 行 缓存 中 。 故 而 最 后 的 输出 结果 中 ， 无 论 是 父 进程 还 是 子 进程 都 有 Hello 字 符 串 。 


2.3 fopen 和 open 标 志 位 对 比 


5C 库 的 fopen 用 于 打开 文件 ， 其 内 部 实现 必然 要 使 用 open 系 统 调用 。 那 么 open 的 各 个 标志 位 又 对 应 open 的 哪些 标志 位 呢 ? 请 看 表 2-1。 


表 2-1 fopen 标 志 位 和 open 标 志 位 对 应 表 


O WRONLY|O CREAT| 以 写 方式 打开 文件 ; 当 文 件 存在 时 ， 将 其 大 小 截断 为 0 ; 当 文 


O_TRUNC 件 不 存在 时 ， 创 建 该 文件 
O_RDWRIO_CREATIO_ | 以 读 写 方式 打开 文件 ; 当 文件 存在 时 ， 将 其 大 小 截断 为 0; 当 
TRUNC 文件 不 存在 时 ， 创 建 该 文件 
( 续 ) 
fopen 标志 位 open 标志 位 用 途 
ee 以 追加 写 的 方式 打开 文件 ， 当 文件 不 存在 时 ， 创 建 该 文件 
a O_RDWRIO_APPENDIO_ | 以 追加 读 写 的 方式 打开 文件 ， 当 文件 不 存在 时 ， 创 建 该 文件 


CREAT 


表 2-1 是 fopen 常 用 的 标志 位 ， 实 际 上 fopen 还 有 更 多 的 标志 位 ， 这 也 是 很 多 书籍 没有 涉及 的 ， 具 体 见 表 2-2。 


表 2-2 更 多 的 fopen 和 open 标 志 位 对 应 


fopen 标志 位 open 标志 位 用 途 


该 文件 流 在 IO 操作 时 不 能 被 取消 
当 进程 执行 exec 时 ， 该 文件 流 会 自动 关闭 
旺 该 文件 流通 过 mmap 来 打开 或 访问 ， 只 支持 读 取 操作 


X 在 创建 文件 时 ， 如 果 文 件 已 经 存在 ，fopen 则 会 返回 失败 而 不 
b 无 表示 打开 的 文件 是 二 进 制 流 而 不 是 文本 流 。 该 标志 目前 在 
Linux 中 是 无 用 的 


下 面 进入 glibc 的 源码 ， 查 看 函数 1O_new _file fopen 来 验证 上 面 的 结论 。 


IO FILE * 
_IO new file fopen (fp, filename, mode, is32not64) 
ID FIIE *fp; 
const char *filename; 
const char *mode; 
int is32not64; 


int oflags = 0, omode; 
int read write; 
int oprot = 0666; 
ne I» 
IO FILE *result; 
#ifdef _LIBC 
const char *cs; 
Const char *last recognized; 
#endif 
if (IO file is open (fp)) 
return 0; 
switch (*mode) 
{ 
Case 'r': 
omode = O RDONLY; 
read write = _IO NO WRITES; 
break; 0. 
Case Ww': 
omode = O WRONLY; 
oflags = O_CREAT|O TRUNC; 
read write = IO NO READS; 
break; ee 
Case 'a': 
omode = O WRONLY; 
oflags = O CREAT|O APPEND; 
read write = _IO_ NO READS|_IO IS APPENDING; 
break; Ia 3 
default: 
_ set errno (EINVAL); 
return NULL; 


} 
#ifdef LIBC 
last recognized = mode; 
#endif 
or (人 


Switch (*+tmode) 
{ 
case '\0': 
break; 
Case '+'; 
omode = O_RDWR; 
read write &= _IO IS APPENDING; 
#ifdef _LIBC 
last_recognized = mode; 
#endif 
continue; 
Case 'x': 
oflags |= O EXCL; 
#ifdef _LIBC 
last recognized = mode; 
#endif ee 
continue; 
Case 'b'; 
#ifdef LIBC 
last_recognized = mode; 
#endif 
continue; 
Case 'm': 
fp-> flags2 |= IO FLAGS2 MMAP; 
continue; 
case 'c'; 
fp-> flags2 |= _IO FLAGS2 NOTCANCEL; 
continue; 
Case 'e';: 
#ifdef © CLOEXEC 
oflags |= O CLOEXEC; 
#endif 
fp-> flags2 |= _IO FLAGS2 CLOEXEC; 
continue; 和 
default: 
/* Ignore. */ 
continue; 
} 
break; 


result = _IO file open (fp, filename, omode|oflags, oprot, read write, 
is32not64); 


上 面 的 源 代码 非常 简单 ， 很 容易 理解 。 每 个 mode 都 是 switch 语 句 的 一 个 case，oflags 就 是 要 传 给 open 的 标志 位 ， 这 就 验证 了 前 文 的 结论 。 


24 fdopenSfileno 


Linux 提 供 了 文件 描述 符 ， 而 C 库 又 提供 了 文件 流 。 在 平时 的 工作 中 ， 有 时 候 需 要 在 两 者 之 间 进 行 切换 ， 因 此 C 库 提供 了 两 个 API: 


#include <stdio.h> 


FILE *fdopen(int fd, const char xmode) 
int fileno(FILE *stream) 7 


fdopen 用 于 从 文件 描述 符 fd 生成 一 个 文件 流 FILE， 而 fileno 则 用 于 从 文件 流 FILE 得 到 对 应 的 文件 描述 符 。 


查看 fdopen 的 实现 ， 其 基本 工作 是 创建 一 个 新 的 文件 流 FILE， 并 建立 文件 流 FILE 与 描述 符 的 对 应 关系 。 我 们 以 fileno 的 简单 实现 ， 来 了 解 文件 流 FILE 与 文件 描述 符 fd 的 关系 。 一 一 因为 该 函数 代码 较 
长 ， 在 此 就 不 罗列 C 库 的 代码 了 。 代 码 如 下 : 


int fileno (_IO FILE* fp) 
{ 


CHECK FILE (fp, EOF); 
if (!(fp-> flags & _IO IS FILEBUF) || _I0 fileno (fp) < 0) 
{ 

_ Set errno (EBADF); 

return 一 17 


} 
return _IO_fileno (fp); 
: 
#define _IO fileno(FP) ((FP)-> fileno) 


从 fileno 的 实现 基本 上 就 可 以 得 知 文件 流 与 文件 描述 符 的 对 应 关系 。 文 件 流 FILE 保 存 了 文件 描述 符 的 值 。 当 从 文件 流转 换 到 文件 描述 符 时 ， 可 以 直接 通过 当前 FILE 保 存 的 值 fileno 得 到 fd。 而 从 文件 描 
述 符 转换 到 文件 流 时 ，C 库 返回 的 都 是 一 个 重新 申请 的 文件 流 FILE， 且 这 个 FILE 的 _fileno 保 存 了 文件 描述 符 。 


因此 无 论 是 fdopen 还 是 fileno， 关 闭 文件 时 ， 都 要 使 用 fclose 来 关闭 文件 ， 而 不 是 用 close。 因 为 只 有 采用 此 方式 ，fclose 作 为 C 库 函数 ， 才 会 释放 文件 流 FILE 占 用 的 内 存 。 


2.5 ”同时 读 写 的 痛苦 


前 面 介绍 过 内 核 的 文件 描述 符 实现 。 在 内 核 中 ， 每 一 个 文件 描述 符 fd 都 对 应 了 一 个 文件 管理 结构 struct file 于 维护 该 文件 描述 符 的 信息 ， 如 偏 移 量 等 。 在 第 1 章 对 read 和 write 的 源码 分 析 中 ， 可 以 
发 现 每 一 次 系统 调用 的 read 和 write 成 功 返 回 后 ， 文 件 的 偏 移 量 都 会 被 更 新 。 


因此 ， 如 果 程 序 对 同一 个 文件 描述 符 进行 读 写 操作 的 话 ， 肯 定 会 得 到 非 期 望 的 结果 ， 示 例 代 码 如 下 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
int main (void) 
{ 
char buf[20]; 
int ret; 
FILE *fp = fopen("./tmp.txt", "w+"); 
十 pl 1 
printf ("Fail to open file\n"); 
return -1; 
ret = fwrite("123", sizeof ("123"), 1, fp); 
printf ("we Write %d member\n", ret); 
memset (buf, 0, sizeof (buf)); 
ret = fread(buf, 1, 1, fp); 
printf ("We read %s, ret is %d\n", buf, ret); 
fwrite(" 人 7 sizeof("456"), 1, fp); 
fclose (fp 
return oF? 


上 面 的 代码 中 ， 利 用 fopen 的 读 写 模式 打开 了 一 个 文件 流 ， 先 写 入 一 个 字符 串 “ ， 然 后 读 取 一 个 字 节 ， 再 写 入 一 个 字符 串 “456” 


大 家 想 想 输出 结果 会 是 什么 呢 ? fread 读 取 的 字符 又 会 是 什么 呢 ? 是 否 为 “1” 呢 ”请 看 下 面 的 结果 : 


[fgao@ubuntu chapter2]#./a.out 
we write 1 member 
We read , ret is 0 


为 什么 fread 什 么 都 没有 读 取 到 ， 返 回 值 是 0 呢 ? 这 是 因为 上 面 的 代码 中 ，fwrite 和 fread 操 作 的 是 同一 个 文件 指针 fp， 也 就 是 对 应 的 是 同一 个 文件 描述 符 。 第 一 次 fwrite 后 ， 在 tmp.txt 中 写 入 了 字符 
和 “123” ， 同 时 文件 偏 移 为 3， 也 就 是 到 了 文件 尾 。 进 行 fread 操 作 时 ， 既 然 操作 的 是 同一 个 文件 描述 符 ， 自 然 会 共享 同一 个 文件 偏 移 ， 那 么 ， 从 文件 尾 自然 读 取 不 到 任何 数据 。 


ol 
也 


2.6 ”ferror 的 返回 值 


ferror 用 于 告诉 用 户 C 库 的 文件 流 FILE 是 否 有 错误 发 生 。 当 有 错误 发 生 时 ，ferror 返 回 非 零 值 ， 反 之 则 返回 0。 那 么 ferror 是 否 会 返回 不 同 的 错误 呢 ? 让 我 们 来 看 看 ferror 的 源码 。 


weak alias ( IO ferror, ferror) 
int _IO_ferror (fp) 
_IO FILE* fp; 
{ 
int result; 
/* 检查 文件 流 的 有 效 性 ， 失 败 则 返回 EOF */ 
CHECK FILE (fp, EOF); 
IO flockfile (fp); 
FestGit = IO ferror unlocked (fp); 
IO funlockfile (fp) 7 
return result; 


进入 IO_ferror_unlocked， 代 码 如 下 : 


#define _IO_ferror unlocked( fp) ((( fp)-> flags & _IO_ERR_SFFN) != 0) 
#define JIO_FRR SEEN 0x20 


从 源码 上 可 以 看 出 ferror 有 两 个 返回 值 : 


: 当 文 件 流 FILE+fp 非 法 时 ， 返 回 EOF (-1) 。 


“ 当 文 件 流 FILE*fp 前 面 的 操作 发 生 错误 时 ， 返 回 1。 


并 且 由 于 文件 流 的 错误 只 是 使 用 一 个 标志 位 1O_ERR_SEEN 来 表示 的 ， 因 此 ferror 的 返回 值 就 不 可 能 针对 不 同 的 错误 返回 不 同 的 值 了 。 


2.7 clearerr 的 用 途 


2.6 节 中 的 ferror 用 于 检测 文件 流 是 否 有 错误 发 生 ， 而 clearerr 用 于 清除 文件 流 的 文件 结束 位 和 错误 位 。 


查看 clearerr 的 实现 ， 代 码 如 下 : 


#define clearerr unlocked(x) clearerr (x) 
void 
Clearerr unlocked (fp) 

FIIE *fp; 


CHECK FILE (fp, /*nothing*/); 
_IO clearerr (fp); 


} 
#define _IO clearerr(FP) ((FP)-> flags &= ~(_IO FRR SEEN|_IO FOF SEEN)) 


可 见 ，clearerr 可 以 清除 文件 流 中 的 文件 结尾 标志 和 错误 标志 。 


但 是 清除 错误 标志 又 有 什么 用 处 呢 ? 按照 某 些 资料 上 的 描述 ， 当 文件 流 读 到 文件 尾 时 ， 文 件 流 会 被 设置 上 EOF 标 志 。 如 果 不 使 用 clearerr 清 除 EOF 标 志 ， 即 使 有 新 的 数据 ， 也 无 法 读 取 成 功 。 


让 我 们 写 个 程序 来 验证 一 下 : 


#include <stdlib.h> 
#include <stdio.h> 
int main (void) 
{ 
FILE *fp = fopen("./tmp.txt", "r"); 
if (!fp) { 
printf ("Fail to fopen\n"); 
return -1; 


} 
while (1) { 
int c = getc(fp); 
if (feof(fp)) { 
printf ("reach feof\n"); 
} 
} 


return 0; 


为 了 满足 前 面 所 说 的 测试 情况 ， 我 们 使 用 gdb 来 控制 程序 ， 代 码 如 下 : 


3 int c = getc(fp) 

(gdb) 

33 if (feof(fp)) { 

(gdb) n 

34 printf ("reach feof\n"); 


现在 ,文件 流 fp 已 经 读 到 了 文件 尾 ， 被 设置 上 了 EOF 标 志 。 接 下 来 向 tmp.txt 追 加 一 个 字母 ‘a”。 


[fgao@fgao chapter3]#echo "a™" >> tmp.txt 


继续 gdb，getc 仍 然 可 以 继续 读 取 ， 并 获得 新 数据 。 


(gdb) n 
31 
(gdb) 
3 if (feof(fp)) { 
(gdb) p 
$1 = 97 
3 


int c = getc(fp); 


printf ("reach feof\n"); 


我 们 可 以 发 现 虽然 此 时 文件 流 fp 仍 然 是 被 设置 了 EOF 标 志 ， 但 是 依然 能 够 成 功 读 取 数据 。 这 与 某 些 资 料 的 描述 不 符 ， 这 就 应 对 了 那 句 老话 “ 尽 信 书 不 如 无 书 ”， 对 于 一 些 资 料 的 结论 ， 不 要 完全 相信 |, 
而 是 要 通过 自己 的 实践 来 验证 。 


下 面 回 到 glibc 的 源码 ， 查 看 10_getc， 从 代码 中 了 解 为 什么 是 这 样 的 结果 。 


int 
_IO getc (fp) 
FILE *fp; 

{ 
int result; 
/* 检查 fp */ 
CHECK FILE (fp, EOF); 
_IO_acquire lock (fp); 
result = _IO getc unlocked (fp); 
_IO release lock (fp); 
return result; 


} 
/* 只 有 定义 了 IO_DEBUG，CHECK_FIIFE 才 会 检查 _IO file flags 标 志 ， 当 其 不 为 0 时 ， 则 返回 错误 值 。 对 于 fgetc 即 为 EOF 
x 
/ 
#ifdef IO DEBUG 
# define CHECK FILE (FILE, RET) \ 

if ((FILE) == NULL) { MAYBE SET EINVAL; return RET; } \ 

else { COERCE FILE(FILE); \ 

if (((FILE)-> IO file flags & _IO MAGIC MASK) != _IO_MAGIC) \ 
{ MAYBE SET EINVAL; return RET; }} 

#else 
# define CHECK FILE (FILE, RET) COERCE FILE (FILE) 
#endif 加 


从 glibc 的 源码 中 可 以 发 现 ， 文 件 流 FILE 的 错误 标志 位 只 有 在 打开 IO_DEBUG 的 情况 下 才 会 对 后 面 的 MO 调用 产生 影响 : 在 有 错误 标志 位 的 时 候 ， 后 面 的 /O 调 用 都 会 直接 返回 EOF。 而 一 般 情况 
下 ，IO_DEBUG 这 个 宏 是 没有 定义 的 。 


2.8 小 心 fgetc 和 getc 


fgetc 和 getc 是 两 个 定义 得 很 不 友好 的 函数 ， 其 函数 名 中 的 getc 很 容易 让 使 用 者 误 以 为 其 返回 值 是 char 字 符 。 实 际 上 两 个 函数 的 接口 定义 如 下 : 


#include <stdio.h> 
int fgetc (FILE *stream); 
int getc (FILE *stream); 


两 者 的 返回 值 都 是 int 类 型 。 为 什么 要 用 int 类 型 作为 返回 值 呢 ? 因为 当 文 件 流 读 到 文件 尾 时 ， 需 要 返回 EOF 值 。C99 标 准 中 规定 了 EOF 为 一 个 int 类 型 的 负数 常量 ， 并 没有 规定 具体 的 值 。 在 glibc 中 ，EOF 
被 定义 为 -1 且 char 为 有 符号 数 。 但 是 不 能 排除 某 些 实现 将 EOF 定 义 为 其 他 负 值 ， 甚 至 可 能 因为 不 遵守 C99 标 准 ，EOF 的 值 有 可 能 超过 char 的 表示 范围 。 因 此 ， 为 了 代码 的 健壮 性 和 可 移植 性 ， 在 使 用 fgetc 和 
getc 时 ， 应 使 用 int 类 型 的 变量 保存 其 返回 值 。 


2.9 注意 fread 和 fwrite 的 返回 值 


fread 和 fwrite 的 声明 代码 如 下 : 


#include <stdio.h> 
size 七 fread (void *ptr, size t size, size t nmemb, FILE *stream); 
size 七 fwrite (Const void *ptr, size t size, size t nmemb, FILE *stream); 


这 两 个 函数 原型 很 容易 让 人 产生 误解 。 当 看 到 返回 值 类 型 为 size_t 时 ， 人 们 很 有 可 能 理解 为 fread 和 fwrite 会 返回 成 功 读 取 或 写 入 的 字 节 数 ， 然 而 实际 上 其 返回 的 是 成 功 读 取 或 写 入 的 个 数 ， 即 有 多 少 个 
Size 大 小 的 对 象 被 成 功 读 取 或 写 入 了 。 而 参数 nmemb 则 用 于 指示 fread 或 fwrite 要 执行 的 对 象 个 数 。 


看 看 下 面 的 示例 代码 : 


#include <stdlib.h> 

#include <stdio.h> 

#include <string.h> 

int main (void) 

{ 
const char str[] = "123456789"7 
FILE *fp = fopen("tmp.txt", "w"); 
size 七 size = fwrite(str, strlen(str), 1, fp); 
printf ("size is %d\n", size); 
fclose (fp); 
return 0; 


这 段 代码 的 输出 为 : 


size is 1 


结果 并 不 是 写 入 的 字符 串 长 度 9， 而 是 返回 写 入 的 对 象 个 数 1。 其 原因 是 参数 ptr 指 示 的 是 要 写 入 对 象 的 地 址 ，size 为 每 个 对 象 的 字 节 数 ，nmemb 为 有 多 少 个 要 写 入 的 对 象 。 


将 上 面 的 代码 稍微 变换 一 下 ， 将 fwrite 的 语句 改 为 : 


size t size = fwrite (str，1， strlen(str), fp); 


这 时 程序 的 输出 就 变 为 : 


size is 9 


其 原因 在 于 ， 参 数 size 表 示 每 个 对 象 的 字 节 数 是 1 字 节 ，nmemb 表 示 要 写 入 9 个 对 象 ， 因 此 返回 值 就 变 为 9 了 。 


2.10 ”创建 临时 文件 


在 项 目 中 经 常会 需要 生成 临时 文件 ， 用 于 保存 临时 数据 ， 创 建 管道 文件 、Unix 域 socket 等 。 为 了 不 与 已 有 的 文件 同名 ， 或 者 避免 与 其 他 临时 文件 相 冲突 ， 有 些 朋友 可 能 会 选择 利用 进程 id、 时 间 惟 等 来 
生成 临时 文件 名 。 其 实 ，C 库 已 经 提供 了 生成 临时 文件 的 接口 。 下 面 对 生成 临时 文件 的 各 种 方法 进行 分 析 对 比 。 先 来 看 看 tmpnam 方 式 ， 代 码 如 下 : 


#include <stdio.h> 
char *tmpnam(char *s); 


tmpnam 会 返回 一 个 目前 系统 不 存在 的 临时 文件 名 。 当 s 为 NULL 时 ， 返 回 的 文件 名 保存 在 一 个 静态 的 缓存 中 ， 因 此 再 次 调用 tmpnam 时 ， 新 生成 的 文件 名 会 覆盖 上 一 次 的 结果 。 当 s 不 为 NULL 时 ， 生 成 
的 临时 文件 名 会 保存 在 s 中 ， 因 此 要 求 s 至 少 要 有 C 库 规定 的 Ltmpnam 大 小 。C 库 同时 还 规定 tmpnam 产 生 的 临时 文件 的 路 径 以 P_tmpdir 开 头 一 一 glibc 中 P_tmpdir 定 义 为 /tmp。 


” 当 s 为 NULL 时 ，tmpnam 不 是 线程 安全 的 。 


“ tmpnam 生 成 的 临时 文件 名 ， 必 须 位 于 固定 的 路 径 下 (/tmp) 。 


“ 使 用 tmpnam 创 建 临 时 文件 不 是 一 个 原子 行为 ， 需 要 先生 成 临时 文件 名 ， 然 后 调用 其 他 I/O 函 数 创 建文 件 。 这 有 可 能 会 导致 在 创建 文件 时 ， 该 文件 已 经 存在 。 


再 来 看 看 tmpfile 方 式 : 


#include <stdio.h> 
FILE *tmpfile (void); 


tmpfile 返 回 一 个 以 读 写 模式 打开 的 、 唯 一 的 临时 文件 流 指针 。 当 文件 指针 关闭 或 程序 正常 结束 时 ， 该 临时 文件 会 被 自动 删除 。 


tmpfile 直 接 返 | 
临时 文件 ? 让 我 们 看 一 下 tmpfile 的 实现 ， 代 码 如 下 : 


回 


FILE * 
tmpfile (void) 
{ 
char buf [FILENAME MAX]; 
int fd; 
JET *fy 
if (_ path search (buf, FILENAME MAX, NULL, “tmpf", 0)) 
return NULL; 
int flags = 0; 
#ifdef FLAGS 
flags = FLAGS; 
#endif 
fd = gen tempname (buf, 0, flags, GT FILE); 
if (fd < 0) 
return NULL; 
/* Note that this relies on the UNIX semantics that 
a file is not really removed until it is closed. */ 


(void) _ unlink (buf); 

if ((f = fdopen (fd, "w+b")) == NULL) 
close (fd); 

return f; 


临时 的 文件 流 指 针 一 一 这 个 自然 避免 了 tmpnam 中 潜在 的 线程 安全 问题 ， 同 时 还 避免 了 将 生成 文件 名 和 创建 文件 分 为 两 个 步骤 来 执行 的 行为 。 那 么 tmpfile 是 否 真 的 实现 了 原子 地 创建 


乍 一 看 ，tmpfile 是 通过 _path_search 先 产生 临时 文件 名 ， 然 后 再 创建 该 文件 ， 最 后 通过 文件 句柄 生成 文件 流 指 针 。 这 样 的 过 程 看 上 去 好 像 并 不 是 原子 的 。 下 


回 


， 让 我 们 深入 到 _gen_tempname 中 一 


case _ GT FILE: 
fd = _open (tmpl, 
(flags & ~O ACCMODE) 
| © RDWR | O CREAT | O EXCL, S IRUSR | S IWUSR); 
break; 下 加 站 机 四 


在 创建 临时 文件 时 ，C 库 使 用 了 open 函 数 的 O_ CREAT 和 O_EXCL 标 志 组 合 ， 
这 个 临时 文件 只 能 生成 在 固定 的 路 径 下 (/tmp) ， 并 且 其 有 可 能 


这 点 保证 了 文件 的 原子 性 创建 ， 从 而 使 tmpfile 创 建 临 时 文件 的 行为 是 原子 的 。 但 tmpfile 也 有 一 个 缺点 ， 与 tmpnam 相 同 ， 
为 文件 名 称 冲突 而 失败 返回 NULL。 


那么 ， 有 没有 可 以 给 临时 文件 指定 目录 的 方法 呢 ? 下 面 请 看 mkstemp， 代 码 如 下 : 


#include <stdlib.h> 
int mkstemp (char *template); 


mkstemp 会 根据 template 创 建 并 打开 一 个 独一无二 的 临时 文件 。template 的 最 后 6 个 字符 必须 是 “XXXXXX”。glibc 库 会 生成 一 个 独一无二 的 后 缀 来 替换 “XXXXXX”， 


修改 的 。 


mkstemp 执 行 成 功 后 会 返回 创建 的 临时 文件 的 文件 描述 符 ， 失 败 时 则 返回 -1 


此 要 求 template 必 须 是 可 以 


。 下 面 看 一 下 mkstemp 的 实现 。 


int #mkstemp (template) 
char *template; 
{ 
return _ gen tempname (template, 0, 0, _ GT FILE); 
} 


进入 _gen tempname 后 : 


int #_gen tempname (char *tmpl, int suffixlen, int flags, int kind) 


int len; 
Char *XXXXXX; 
static uint64 t value; 
uint64 七 random time bits; 
unsigned int count; 
int 1 
int save errno = errno; 
struct stat64 st; 
#define ATTEMPTS MIN (62 * 62 * 62) 


/* The number of times to attempt to generate a temporary file. 


conform to POSIX, this must be no smaller than TMP MAX. */ 
#if ATTEMPTS MIN < TMP MAX 5 
unsigned int attempts = TMP MAX; 
#else a 
unsigned int attempts = ATTEMPTS MIN; 
#endif 属 
/* 检查 template 的 合法 性 ， 检 查 长 度 及 结尾 的 XXXXXX 字 符 */ 
len = strlen (tmpl); 


To 


if (len < 6 + suffixlen || memcmp (&tmpl[len - 6 - suffixlen], "XXXXXX", 6)) 


{ 
_ set errno (EINVAL); 
return -1; 


i 
/* 得 到 结尾 XXXXXX 起 始 位 置 */ 
XXXXXX = &tmpl[len - 6 - suffixlen]; 
/* 得 到 “随机 ”数据 */ 
#ifdef RANDOM BITS 
RANDOM BITS (random time bits); 
#else 
#if HAVE GETTIMEOFDAY || _LIBC 
{ 
struct timeval tv; 
__gettimeofday (&tv, NULL); 
random time bits = ((uint64 t) tv.tv usec << 16) “^ 
tv.tv_sec; 


#else 
random time bits = time (NULL); 
#endif 
#endif 
/* 根据 上 面 的 伪 随 机 数 和 进程 pid 生 成 value */ 


value += random time bits ^_ getpid (); 


/* 
根据 value 得 到 唯一 的 临时 文件 名 ， 如 有 重复 则 加 上 7777 继 续 。 


最 多 重复 attempts 次 。 
Ss 


for (count = 0; count < attempts; value += 7777, ++count) 
{ 
uint64 t v = value; 
/* 
letters 是 26 个 英文 大 小 写 加 上 10 个 阿拉 伯 数 字 ， 为 62 个 大 小 的 字符 数组 。 因 此 使 用 62 作 为 除数 ， 
以 得 到 随机 字符 。 


* 
/ 

XXXXXX[0] = letters[v % 62]; 
Vv /= 62; 

XXXXXX[1] = letters[v % 62]; 
V /= 62; 

XXXXXX[2] = letters[v % 62]; 
V /= 62; 

XXXXXX[3] = letters[v % 62]; 
V /= 62; 

XXXXXX[4] = letters[v % 62]; 
V /= 62; 


XXXXXX[5] = letters[v % 62]; 

switch (kind) 

{ case__GT FILE: 
/* 这 是 mkstemp 的 情况 ， 利 用 O_CREAT|O_EXCL 创 建 唯一 文件 */ 
fd = open (tmpl, 

(flags & ~O_ACCMODE) 
| O RDWR | O_CREAT O EXCL, S_IRUSR | S_IWUSR); 
break; 加 加 


} 
if (fd >= 0) 
{ 


/* 成 功 创建 了 文件 ， 恢 复原 来 的 errno， 并 返回 创建 的 文件 描述 符 fd */ 
_ set errno (save errno); 
return fq; 

} 

else if (errno != EEXIST) { 


/* 如 失败 的 原因 不 是 因为 文件 已 经 存在 的 时 候 ， 则 直接 返回 。*/ 


return -1; 
} 
/* 如 果 是 其 他 原因 ， 则 会 重新 生成 新 的 文件 名 ， 并 再 次 尝试 重建 */ 
} 
/* 将 errno 设 置 为 EEXIST， 即 文件 已 经 存在 */ 


_ Set errno (EEXIST); 
JE =1 


综 上 所 述 ， 在 需要 使 用 临时 文件 时 ， 不 推荐 使 用 mpnam， 而 要 用 tmpfile 和 mkstemp。 前 者 的 局 限 在 于 不 能 指定 路 径 ， 并 且 在 文件 名 称 冲突 时 会 返回 失败 。 后 者 可 以 由 调用 者 来 指定 路 径 ， 并 且 在 文 


件 名 称 冲突 时 ， 会 自动 重新 生成 并 重 试 。 


境 ， 


除了 上 面 介 绍 的 几 种 方法 ，Linux 环 境 还 提供 了 这 些 接口 的 一 些 变种 : tempnam、mkostemp、mkstemps 等 ， 分 别 对 其 原始 形态 进行 了 扩展 ， 详 细 区 别 可 以 直接 查看 Linux 手 册 。 


进程 是 操作 系统 运行 程序 的 一 个 实例 ， 也 是 操作 系统 分 配 资 源 的 单位 。 在 Linux 环 境 中 ， 每 个 进程 都 有 独立 的 进程 空间 ， 以 便 对 不 同 的 进程 进行 隔离 ， 使 之 不 会 互相 影响 。 深 入 理解 Linux 下 的 进程 环 
可 以 帮助 我 们 写 出 更 健壮 的 代码 。 


3.1 main 是 C 程 序 的 开始 吗 


在 编写 C 程 序 的 时 候 ， 都 是 从 main 函 数 开始 ， 然 而 main 函 数 真 的 是 C 程 序 的 入 口 吗 ? 让 我 们 来 看 看 下 面 的 程序 : 


#include <stdlib.h> 
#include <stdio.h> 
static void _attribute _ ((constructor)) before main (void) 
{ 
printf ("Before mainhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/...\n"); 
} 
int main (void) 
{ 
printf ("Main!\n"); 
return 0; 


Before mainhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/... 
Main! 


呢 ? 


从 运行 结果 中 ， 可 以 发 现 before_main 是 在 进入 main 函 数 之 前 被 调用 的 ， 这 点 对 于 C 语 言 的 初学 者 来 说 似乎 有 点 难以 接受 。 究 竟 是 谁 调用 的 before_main 呢 ? 怎么 还 没有 进入 main 就 可 以 有 代码 被 执行 


回忆 一 下 第 0 章 所 讲 的 基础 知识 ， 在 编译 的 过 程 中 可 以 使 用 -v 来 详细 地 显示 编译 的 过 程 。 在 此 ， 截 取 gcc 4 1_main_stack.c-v 输 出 的 一 部 分 结果 ， 如 下 所 示 : 


/usr/libexec/gcc/i686-redhat-linux/4.6.3/collect2 --build-id --no-add-needed 

--eh-frame-hdr -m elf i386 --hash-style=gnu -dynamic-linker /lib/ld-linux. 

so.2 /usr/1lib/gcc/i686-redhat-linux/4.6.3/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/../http://www.hzcourse.com/res 
redhat-linux/4.6.3/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/../http://www.hzcourse.com/resource/readBook?path=/or 
crtbegin.o -L/usr/lib/gcc/i686-redhat-linux/4.6.3 -L/usr/lib/gcc/i686- 富 

redhat-linux/4.6.3/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPSVText/../http://www.hzcourse.corm/resource/readBook?path=/ocF 
as-needed -lc -lgcc --as-needed -lgcc s --no-as-needed /usr/lib/gcc/i686- 

redhat-linux/4.6.3/crtend.o /usr/lib/gcc/i686-redhat-linux/4.6.3/http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/../httr 
crtn.o 


接 ， 


可 以 看 到 ， 在 链接 生成 最 后 的 可 执行 文件 时 ， 有 大 量 的 C 库 二 进 制 文件 参与 进来 ， 如 crt1.0、crti.o 等 。 可 见 最 终 的 可 执行 文件 ， 除 了 我 们 编写 的 这 个 简单 的 C 代 码 以 外 ， 还 有 大 量 的 C 库 文件 参与 了 链 
并 包含 在 最 终 的 可 执行 文件 中 。 这 个 “组 装 ”的 过 程 ， 是 由 链接 器 Id 的 链接 脚本 来 决定 的 。 在 没有 指定 链接 脚本 的 情况 下 ， 会 使 用 ld 的 默认 脚本 ， 可 以 通过 ld-verbose 来 查看 ， 下 面 截取 了 对 我 们 有 用 


的 部 分 输出 : 


/* Script for -z combreloc: combine and sort reloc sections */ 
OUTPUT FORMAT ("elf32-i386", "elf32-i386", 


"elf32-i386") 
OUTPUT ARCH (i386) 
ENTRY (_start) 


这 里 定义 了 输出 的 文件 格式 、 目 标 机 器 的 类 型 ， 以 及 重要 的 信息 和 程序 的 入 口 ENTRY (_start) 。 


.Ctors 
{ 
/* gcc uses crtbegin.o to find the start of 
the constructors, so we make sure it is 
first. Because this is a wildcard, it 
doesn't matter if the user does not 
actually link against crtbegin.o; the 
linker won't look for a file to match a 
wildcard. The wildcard also means that it 
doesn't matter which directory crtbegin.o 
iB i Rf 
KEEP (*crtbegin.o(.ctors) ) 
KEEP (*crtbegin?.o(.ctors)) 
/* We don't want to include the .ctor section from 
the crtend.o file until after the sorted ctors. 
The .ctor section from the crtend file contains the 
end of ctors marker and it must be last */ 
KEEP (* (EXCLUDE FILE (*crtend.o *crtend?.0 ) .ctors)) 
KEEP (*(SORT(.ctors.*}))) 
KEEP (*(.ctors)) 


这 里 定义 了 .ctors section ， 而 我 们 的 例子 中 before_main 函 数 使 用 的 gcc 扩 展 属性 _attribute  ( (constructor) ) 就 是 将 函数 对 应 的 指令 归属 于 .ctors section 中 。 


下 面 我 们 来 追溯 一 下 Linux 可 执行 程序 完整 的 启动 过 程 。 前 面 的 链接 脚本 明确 了 入 口 为 _start。 在 32 位 的 x86 平 台中 ，_start 位 于 sysdeps/i386/start.S 中 。 


.text 
.globl start 
.type _start,@function 
_start: 
/* Clear the frame pointer. The ABI suggests this be done, to mark 
the outermost frame obviously. */ 
xorl %ebp, sebp 
/* Extract the arguments as encoded on the stack and set up 
the arguments for ‘main':; argc, argv. envp will be determined 
later in libc start main. */ 
popl Sesi ~ /* Pop the argument count. */ 
mov] %esp, %ecx /* argv starts just at the current stack top.*/ 
/* Before pushing the arguments align the stack to a 16-byte 
(SSE needs 16-byte alignment) boundary to avoid penalties from 
misaligned accesses. Thanks to Edward Seidl <seidl@janed.com> 
for pointing this out. */ 
andl $0xfffffff0, Sesp 
pushl %eax /* Push garbage because we allocate 
28 more bytes. */ 
/* Provide the highest stack address to the user code (for stacks 


which grow downwards). */ 
pushl %esp 
pushl %edx /* Push address of the shared library 


termination function. */ 

/* Push address of our own entry points to .fini and .init. */ 
pushl $_ libc csu fini 
pushl $libc csu init 
pushl %ecx /* Push second argument: argv. */ 
pushl %esi /* Push first argument: argc. */ 
pushl $BP SYM (main) 
/* Call the user's main function, and exit with its value. 

But let the libc call main. *£ 
call BP SYM (_ libc start main) 


上 面 列 出 的 虽然 是 汇编 代码 ， 但 是 每 一 行 都 有 清楚 的 注释 ， 这 上段 代码 主要 是 为 程序 的 运行 创建 好 运行 环境 ， 其 中 需要 注意 的 是 ，_libc_csu_fini 和 _libc_csu_init 都 被 作为 参数 传 给 了 
_libc start_main。 从 这 两 个 函数 的 名 字 上 可 以 推测 它们 是 用 来 处 理 退 出 和 初始 化 阶段 的 函数 ， 那 么 .ctors section 中 的 函数 很 可 能 就 是 由 _libc_csu_init 来 调用 的 。 


我 们 先 来 关注 _libc_ csu_init 是 在 何 时 被 调用 的 ， 然 后 再 分 析 其 实现 。 上 面 的 汇编 代码 将 这 两 个 函数 作为 参数 传递 给 了 _libc start_main， 然 后 又 调用 了 generic_ start_main 函 数 。 这 个 函数 初始 化 了 C 
库 所 需要 的 环境 ， 如 环境 变量 、 函 数 栈 、 多 线程 环境 等 ， 最 后 调用 main 函 数 一 一 进入 普通 应 用 程序 的 真正 入 口 。 而 在 此 之 前 ， 以 下 代码 先 被 执行 : 


/* Register the destructor of the program, if any. */ 
if (fini) 

_ Cxa atexit ((void (*) (void *)) fini, NULL, NULL); 
if (init) 

(*init) (argc, argv, _ environ MAIN AUXVEC PARAM); 


init 即 为 _libc_csu_init， 上 面 的 代码 保证 了 _libc_csu_init 在 main 之 前 被 调用 。 那 么 .ctors 的 函数 又 是 如 何 被 _libc_csu_init 调 用 的 呢 ? 篇 幅 所 限 ， 在 此 我 们 就 不 罗列 代码 ， 只 给 


_libc csu init->_init->_ libc_global ctors。 


其 调用 流程 : 


5c 


void 
_libc global ctors (void) 
{/* Call constructor functions. */ 
run hooks (_ CTOR LIST ); 
} 
static inline void 
run hooks (void (*const list[]) (void) ) 
{ 
while (*++list) 
St (> 
} 
static void (*const _ CTOR LIST [1]) (void) 
_attribute ((used, section (".ctors"))) 


= { (void (*) (void)) -1 }; 


_CTOR _LIST_ 是 一 个 函数 指针 数组 ， 数 组 的 大 小 为 1。 该 数组 使 用 gcc 的 扩展 属性 ， 使 _CTOR_LIST_ 位 于 .ctors section 中 。 因 此 ， 在 上 面 的 代码 中 ，_libc_global_ctors 将 _CTOR_LIST_ 传递 给 了 
run_hooks， 实 际 上 就 是 将 .ctors section 的 起 始 地 址 传递 给 了 run_hooks。 而 _CTOR _LIST_ 位 于 .ctors 的 第 一 个 位 置 ， 其 本 身 并 不 是 一 个 真正 的 .ctors 属 性 函数 ， 因 此 run_hooks 的 while (*+ +list) 先 执 
行 自 增 操作 ， 即 跳 过 了 _CTOR LIST_。 


回 


可 以 通过 反 汇 编 查看 二 进 制 的 可 执行 程序 来 验证 : 


080483e4 <before main>: 


80483e4: 55 Push ”sebp 

80483e5: 89 e5 mov Sesp, sebp 

80483e7: 83 ec 18 sub $0x18, Sesp 
80483ea: c7 04 24 e0 84 04 08 movl $0x80484e0, (Sesp) 
80483f1: e8 22 ff ff ff call 8048318 <puts@plt> 
80483f£6: et leave 


80483f7: 03 ret 


可 以 看 到 ， 函 数 before_main 的 地 址 为 0x080483e4。 然 后 使 用 objdump 来 查看 .ctors section : 


objdump -s -j .ctors a.out 

a.outs file format elf32-i386 

Contents of section .ctors: 

8049f08 ffffffff e4830408 00000000 ee 


可 以 看 到 ，.ctors section 的 第 一 个 元 素 即 上 文中 的 _CTOR_LIST_， 第 二 个 元 素 为 before_main 一 一 由 于 x86 是 小 端 CPU， 因 此 0xe4830408 实 际 上 表示 的 地 址 值 为 0x080483e4。 


需要 注意 的 是 ， 在 新 版 本 的 gcc 中 ，.ctors 属 性 的 函数 并 不 会 位 于 .ctors section 中 ， 而 是 被 gcc 合 并 到 了 .init_array section 中 。 下 面 来 看 一 下 这 种 情况 下 的 objdump 输 出 : 


[fgao@fgao chapter3]#objdump -s -j .ctors a.out 
a.out: file format elf32-i386 
Contents of section .ctors: 

8049600 ffffffff 00000000 


可 以 看 到 ， 在 .ctors section 中 ,没有 任何 有 效 的 .ctors 函 数 ， 然 后 我 们 来 看 看 .init_array section: 


[fgao@fgao chapter3]#objdump -s -j .init array a.out 
a.out: file format elf32-i386 
Contents of section .init array: 

80495fc b4830408 


保存 在 .init_array section 中 的 函数 调用 机 制 与 之 前 分 析 的 .ctors section 机 制 类 似 ， 在 此 就 不 再 重复 了 。 感 兴趣 的 朋友 可 以 自行 分 析 。 


@i 与 constructor 属 性 对 应 的 ， 还 有 descontructor 属 性 。 拥 有 descontructot 属 性 的 函数 ， 会 在 main 结 束 之 后 被 调用 。 


3.2 “”“ 活 雷锋 ”exit 


在 刚刚 学 习 C 语 言 的 时 候 ， 我 们 就 被 告知 分 配 内 存 以 后 ， 如 果 不 使 用 free 来 释放 内 存 ， 就 会 造成 内 存 的 泄漏 。 同 样 ， 打 开 文 件 以 后 ， 如 果 忘记 close 也 会 造成 资源 的 泄漏 。 那 么 ， 在 进程 退出 以 后 ， 这 些 
资源 是 否 真 的 泄漏 了 呢 ? 


当 进 程 正 常 退 出 时 ， 会 调用 C 库 的 exit， 而 当 进程 崩溃 或 被 kill 掉 时 ，(C 库 的 exit 则 不 会 被 调用 ， 只 会 执行 内 核 退 出 进程 的 操作 。 


首先 ， 我 们 来 分 析 C 库 的 退出 函数 exit， 代 码 如 下 : 


void 
exit (int status) 
{ 
_run exit handlers (status, & exit funcs, true); 


LE: 


5C 库 的 exit 主 要 用 来 执行 所 有 注册 的 退出 函数 ， 比 如 使 用 atexit 或 on_exit 注 册 的 函数 。 执 行 完 注册 的 退出 函数 后 ，_run_exit_handlers 会 调用 _exit， 代 码 如 下 : 


void 
_exit (status) 
int status; 
{ 
while (1) 
{ 


#ifdef _NR exit group 

INLINE SYSCALL (exit group, 1, status); 
#endif 

INLINE SYSCALL (exit, 1, status); 
#ifdef ABORT INSTRUCTION 

ABORT INSTRUCTION; 
#endif 

i 

} 


上 面 的 代码 很 简单 ， 当 平台 有 exit_group 时 ， 就 调用 exit_group， 否 则 就 调用 exit。 从 Linux 内 核 2.5.35 版 本 以 后 ， 为 了 支持 线程 ， 就 有 了 exit_group。 这 个 系统 调用 不 仅仅 是 用 于 退出 当前 线程 ， 还 会 
让 所 有 线程 组 的 线程 全 部 退出 。 


下 面 来 看 看 系统 调用 exit_group 的 实现 : 


SYSCALL DEFINE1 (exit group, int, error code) 
{ 
/* do_group_ exit 做 真正 的 工作 */ 
do group exit((error code & Oxff) << 8); 
/* NOTREACHED */ 
return 0; 


} 
NORET TYPE void 
do group exit (int exit_ code) 
{ 
struct signal struct *sig = current->signal; 
BUG ON (exit code & 0x80); /* core dumps don't get here */ 
/* 答 查 该 线程 组 是 否 正 在 退出 ， 如 果 条 件 为 真 ， 则 不 需要 设置 线程 组 退出 的 条 
件 ， 直 接 执 行 本 线程 Lask 退 出 流程 do_exit 即 可 */ 
if (signal group exit (sig)) 
exit code = sig->group exit code; 
else if (!thread group empty(current)) { /* 线程 组 不 为 空 */struct sighand struct *const sighand = current->sighangd; 
spin lock irg(&sighand->siglock); ee 
/* 标准 的 双重 条 件 检 查 机 制 。 因 为 第 一 次 检查 signal group exit 时 为 假 ， 但 是 另外 一 个 线程 
已 经 拿 到 锁 ， 并 设置 了 状态 。 当 拿 到 锁 的 时 候 ， 需 要 再 次 检查 */ 
if (signal group exit (sig) ) { 
/* Another thread got here before we took the lock. */ 
exit code = sig->group exit code; 
} 
else { 
/* 设置 线程 组 的 退出 值 和 退出 状态 */ 
Sig->group exit code = exit code; 
sig->flags = SIGNAL GROUP EXIT; 
/* 使 用 SIGKILL“ 干 撞 ” 线 程 组 的 其 他 线程 */ 
zap_other threads (current); 
} 
spin unlock irq(&sighand->siglock); 


} 

/* 真正 的 退出 动作 ， 退 出 当前 线程 Lask */ 
do _ exit (exit _ code) 

/* NOTREACHED */ 


下 面 来 看 看 do_exit 的 实现 : 


NORET_TYPE void do exit (long code) 


{ 


struct task struct *tsk = current; 
int group dead; 
profile task exit (tsk); 
WARN_ ON (blk needs flush Plug (tsk)); 
/* 中 断 上 下 文 不 能 使 用 退出 ， 因 为 没有 进程 上 下 文 */ 
if (unlikely (in interrupt ())) 
panic("Aiee, killing interrupt handler!"); 
/* pid 为 0， 即 内 核 的 jdle 进 程 。 这 个 task 也 是 不 应 该 退出 的 */ 
if (unlikely(!tsk->pid)) 
i panic ("Attempted to kill the idle task!"); 
六 
If do exit is called because this Processes oopsed, it's possible 
that get fs() was left as KERNEL DS, so reset it to USER DS before 
continuing. Amongst other possible reasons, this is to prevent 
mm release()->clear child tid() from writing to a user-controlled 
kernel address. 


冰冰 冰冰 并 


站 
Set_fs (USER_DS) ， 
/* 如 果 task 正 在 被 跟踪 如 gdb， 则 发 送 ptrace 事 件 */ 
ptrace event (PTRACE EVENT EXIT, code); 
validate creds for do exit (tsk); 
/* 
* We're taking recursive faults here in do exit. Safest is to just 
* leave this task alone and wait for reboot. 
六 
/ 
/* 当 task 退 出 的 时 候 ， 会 被 设置 上 PF EXITING 标 志 。 如 果 发 现 此 时 flags 已 经 设置 了 该 标志 ， 则 说 
明 发 生 了 错误 。 此 时 就 要 按照 注释 所 说 的 ， 最 安全 的 方法 是 什么 都 不 做 ， 通 知 并 等 待 重 启 */ 
if (unlikely (tsk->flags & PF EXITING) ) { 
printk (KERN_ALERT 国 
"Fixing recursive fault but reboot is needed!\n"); 
1 
We can do this unlocked here. The futex code uses 
this flag just to verify whether the pi state 
cleanup has been done or not. In the worst case it 
loops once more. We pretend that the cleanup was 
done as there is no way to return. Either the 
OWNER DIED bit is set by now or we push the blocked 
task into the wait for ever nirwana as well. 


洒洒 并 并 并 站 四 


和 
~” 

tsk->flags |= PF EXITPIDONE; 

/* 将 当前 task 设 置 为 不 可 中 断 的 状态 ， 然 后 放弃 CPU。 */ 
set current state (TASK UNINTERRUPTIBLE); 
schedule(); 加 


} 

/* 如 果 当 前 task 是 中 断 线程 ， 即 每 个 CPU 中 断 由 一 个 线程 来 处 理 ， 则 设置 对 应 的 中 断 停止 来 唤醒 本 线程 。 这 
是 一 个 编译 选项 ， 默 认 情 况 下 是 关闭 的 。*/ 

exit irq thread(); 

/* 给 task 设 置 退 出 标志 PF_EXITING */ 

/* sets PF EXITING */ 


en (tsk) 7 
六 
* tsk->flags are checked in the futex code to Protect against 
* an exiting task cleaning up the robust pi futexes. 
六 
这 
smp_mb (); 
raw_ spin unlock wait (&tsk->pi lock); 
if (unlikely (in atomic())) 
printk (KERN_INFO "note: %s[%d] exited with preempt count sd\n", 
Current->comm, task pid nr(current), 
Preempt count ()); 
acct update integrals (tsk); 
/* sync mm's RSS info before statistics gathering */ 
/* 该 task 有 自己 的 内 存 空间 */ 
if (tsk->mm) 
sync_mm rss (tsk，tsk->mm) ; // 更 新 内 存 统计 计数 
/* 判断 整个 线程 组 是 否 都 已 经 退出 。*/ 
group dead = atomic dec and test(&tsk->signal->live) 7 
if (group dead) { 
/* 取消 高 精度 定时 器 */ 
hrtimer cancel (&tsk->signal->real timer); 
/* 删除 task 的 内 部 定时 器 ， 对 应 系统 调用 getitimer 和 setitimer */ 
exit itimers (tsk->signal); 
if (tsk->mm) 
setmax mm hiwater rss(&tsk->signal->maxrss, tsk->mm); 
} 
acct_collect (code, group dead); 
/* 如 果 整 个 线程 组 都 已 经 退出 ， 则 释放 授权 资源 */ 
if (group dead) 
tty audit exit(); 
if (unlikely(tsk->audit context)) 
audit free(tsk); 
/* 设置 task 的 退出 值 */ 
tsk->exit code = code; 
/* 释放 任务 统计 资源 */ 
taskstats exit (tsk, group dead); 
/* 
释放 tasKk 的 内 存 空间 。task 使 用 的 所 有 内 存 页 都 由 内 核 来 维护 。 对 于 用 户 程 序 ， 如 果 忘 记 释放 申请 的 内 存 ， 
则 只 会 造成 用 户 程序 无 法 再 使 用 该 内 存 ， 因 为 内 核 认为 该 内 存 仍然 在 被 用 户 程序 使 用 。 当 task 退 出 时 ， 内 核 
-a 责 释放 所 有 的 内 存 地 址 。 因 此 当 进 程 退 出 时 ， 所 有 申请 的 内 存 都 会 被 释放 ， 不 会 有 任何 的 内 存 泄漏 。 


exit mm(tsk); 
if (group dead) 
acct process(); 
trace_sched process exit (tsk); 
/* 
检查 是 否 释 放 了 semphore 资 源 ， 如 没有 释放 则 执行 Semphore 的 undo 操 作 。 这 点 用 于 保证 在 进程 意外 退 
出 时 ， 能 恢复 semphore 的 正确 状态 ， 也 可 以 用 于 预防 错误 的 程序 远 辑 所 导致 的 semphore 释 放 操 作 遗 漏 。 
下 
exit sem(tsk); 
/* 释放 共享 内 存 */ 
exit_shm (tsk) 7 


没有 被 共享 ， 则 释放 所 有 的 文件 资源 。 即 使 用 户 程序 有 文件 泄漏 也 不 必 担心 ， 一 旦 task 退 
源 都 会 得 到 正确 的 释放 一 因为 内 核 维护 了 所 有 的 、 打 开 的 文件 。 


exit files (七 sk) 7 
/* 释放 task 的 文件 系统 资源 ， 如 当前 目录 、 根 目录 等 */ 
exit fs (tsk) 7 
check stack usage () 7 
/* 释放 task 资 源 ， 如 TSS 段 等 */ 
exit thread(); 
A 
* Flush inherited counters to the parent - before the parent 
* gets woken up by child-exit notifications. 
和 


M4 of cgroup mode, must be called before cgroup exit() 
perf event exit task(tsk); 
/* 从 控制 组 退出 ， 并 释放 相关 资源 */ 
cgroup exit (tsk, 1); 
/* 如 果 线 程 组 都 已 经 退出 ， 则 断 开 控制 终端 邑 tty */ 
if (group dead) 
disassociate ctty(1); 
/* 后 面 仍然 是 一 些 task 退 出 的 清理 工作 ， 因 与 本 节 关 系 不 大 ， 所 以 在 此 不 再 一 一 列 出 了 */ 


从 exit 的 源码 可 以 得 知 ， 即 使 应 用 程序 在 应 用 层 有 内 存 泄漏 或 文件 句柄 泄漏 也 不 必 担心 ， 当 进程 退出 时 ， 


其 他 资源 一 一 当然 ， 前 提 条 件 是 这 些 资源 是 该 进程 独 享 的 。 


内 核 的 exit_group 调 用 将 会 默默 地 在 后 面 做 着 清理 工作 ， 释 放 所 有 内 存 ， 关 闭 所 有 文件 ， 以 及 


3 


3.3 atexit 介 绍 


使 用 atexit 


atexit 用 于 注册 进程 正常 退出 时 的 回调 函数 。 若 注册 了 多 个 加 


#include <stdlib.h> 
int atexit (void (*function) (void) ) 7 


调 函数 ， 最 后 的 调 有 


顺序 与 注册 顺序 相反 ， 与 我 们 熟悉 的 栈 操 作 类 似 ， 先 入 后 出 。 


下 面 来 看 一 个 简单 的 例子 : 


#include <stdlib.h> 
#include <stdio.h> 
static void callbackl (void) 
{ 

printf ("callbackl\n"); 


} 
static void callback2 (void) 
{ 

printf ("callback2\n"); 


static void callback3 (void) 


printf ("callback3\n"); 
} 
int main (void) 
人 

atexit (callback1) 7 

(callback2); 

atexit (callback3); 
printf ("main exit\n"); 
return 0; 


main exit 
callback3 
callback2 
callbackl 


从 上 面 的 代码 输出 可 以 看 出 ， 我 们 顺序 地 注册 callback1、callback2 和 callback3， 当 进程 退出 时 ， 其 调用 顺序 为 callback3、callback2 和 callback1。 


3.4 “小 心 使 用 环境 变量 


Linux 环 境 下 ， 程 序 在 启动 的 时 候 都 会 从 shell 环 境 下 继承 当前 的 环境 变量 ， 如 PATH、HOME、TZ 等 。 我 们 也 可 以 通过 C 库 的 接 


来 增加 、 修 改 或 删除 当前 进程 的 环境 变量 ， 示 例如 下 : 


#include <stdlib.h> 
int putenv (char *string); 


putenv 用 于 增加 或 修改 当前 的 环境 变量 。string 的 格式 为 “名 字 = 值 ”。 如 果 当 前 环境 变量 没有 该 名 称 的 环境 变量 ， 则 增加 这 个 新 的 环境 变量 ; 如 果 已 经 存在 ， 则 使 用 新 值 。 看 似 功能 很 简单 ， 但 实际 


上 使 用 这 个 接口 时 ， 却 很 容易 犯错 。 请 看 下 面 的 代码 : 


#include <stdlib.h> 
#include <stdio.h> 
static void set env string (void) 


{ 


Char test env[] = "test env=test"; 


if (0 != putenv (test env)) { 
printf ("fail to putenv\n"); 


printf("1. The test evn string is %s\n", getenv ("test env")); 


static void show env string (void) 


{ 


printf ("2. The test env string is %s\n", getenv ("test env")); 


int main() 

{ 
set_ env_ string(); 
show env string();return 0; 


} 


然后 编译 ， 查 看 输出 结果 : 


1. The test evn string is test 
2. The test env string is (null) 


结果 有 点 出 人 意料 ， 为 什么 在 set_env_string 中 可 以 得 到 我 们 设置 的 环境 变量 ,而 在 show_env_string 中 却 不 行 呢 ? 


原因 在 于 使 


set_env _string 的 时 候 ，test_env 已 经 不 存在 了 ， 对 应 栈 上 的 内 存 会 在 后 面 


笔者 曾经 修改 过 一 个 因为 putenv 引 起 的 bug， 当 时 也 是 费 了 很 大 一 番 力 气 才 找 型 
说 过 一 句 话 “ 编 程 的 时 候 ， 要 总 是 想 着 那个 维护 你 代码 的 人 会 是 一 个 知道 你 住 在 哪儿 的 、 有 暴力 倾向 的 精神 病 患者 ”。 


putenv 添 加 环境 变量 时 ， 参 数 直接 被 当 作 环境 变量 的 一 部 分 了 。 对 于 本 例 而 言 ，set_env_string 中 的 test_env 数 组 直接 被 环境 变量 引 


的 函数 调 有 


如 果 非 要 


根本 原因 ， 所 以 颇 为 气愤 当时 的 开发 人 员 为 什么 在 使 


putenv 的 时 候 ， 不 认真 阅读 该 接 


了 。 而 test_env 是 一 个 局 部 变量 ， 在 执行 


中 使 用 ， 并 存 入 其 他 值 。 因 此 ， 在 进入 show_env _string 的 时 候 ， 就 无 法 得 到 正确 的 值 了 。 


的 说 明 。Martin Golding 曾 


putenv 来 设置 环境 变量 ， 就 必须 要 保证 参数 是 一 个 长 期 存在 的 内 容 。 因 此 ， 只 能 选择 全 局 变量 、 常 量 或 动态 内 存 等 。 为 了 避免 犯错 ， 我 们 应 该 尽量 使 用 另外 一 个 接口 setenv， 代 码 如 下 : 


#include <stdlib.h> 


int setenv(const char *name const char *value, int overwrite); 


参数 说 明 : 
“ name; 要 加 入 的 环境 变量 名 称 。 
“ value; 该 环境 变量 的 值 。 


“ overwrite: 用 于 指示 是 否 履 盖 已 存在 的 重 名 环境 变量 。 


还 是 使 用 上 文 的 例子 ， 只 不 过 我 们 将 putenv 换 为 setenv， 代 码 如 下 : 


#include <stdlib.h> 
#include <stdio.h> 
static void set env string (void) 
长 
setenv ("test env", "test", 1); 
printf("1. The test evn string is 多 SNnny getenv ("test_env") ) 7 


static void show env_ string (void) 
printf ("2. The test env string is gSs\n", getenv ("test env")); 


int main() 

{ 
set_ env string(); 
Show env_string(); 
return 0; 


} 


这 次 的 运行 结果 就 是 我 们 预期 的 结果 了 : 


1. The test evn string is test 
2. The test env string is test 


3.5 ”使 用 动态 库 


在 平时 的 编程 工作 中 ， 除 了 C 库 ， 还 会 用 到 大 量 的 库 文件 ， 其 中 绝 大 部 分 都 是 以 动态 库 的 方式 来 提供 服务 的 。 


3.6 ”避免 内 存 问题 


在 编程 的 错误 中 ， 内 存 问 题 无 疑 占据 了 很 大 的 比例 。 而 且 内 存 问 题 比较 难 查 ， 出 现 问题 的 “ 案 发 现场 ”与 真正 的 “凶手 ”往往 隔 着 十 万 八 干 里 ， 甚 至 完全 没有 关系 。 对 于 初学 者 来 说 ， 解 决 这 样 的 问题 
往往 要 浪费 大 量 的 时 间 。 因 此 ， 我 们 应 该 在 编写 代码 的 初始 阶段 ， 就 要 注意 避 开 某 些 代码 “陷阱 ”。 问 题 发 现 得 越 早 ， 代 价 也 就 越 小 。 


3.7 ”长 跳 转 ”longjmp 


C 语 言 中 的 goto 语 句 由 于 可 以 直接 跳 转 到 函数 中 的 任意 一 行 ， 因 此 是 一 个 颇 受 争议 的 语句 。 有 人 认为 它 给 代码 带 来 了 混乱 ， 有 人 则 认为 适当 地 使 


中 就 充斥 着 goto 语 句 的 使 用 。 关 于 这 点 ， 仁 者 见 仁 ， 智 者 见 智 吧 。 


goto 语 句 已 经 引发 了 这 么 大 的 争议 ， 而 C 库 还 提供 了 另外 一 组 接 
longjmp 的 使 用 方法 。 


第 4 章 ”进程 控制 : 进程 的 一 生 


进程 是 操作 系统 的 一 个 核心 概念 。 每 个 进程 都 有 自己 唯一 的 标识 : 进程 ID， 也 有 自己 的 生命 周期 。 一 个 典型 的 进程 的 生命 周期 如 


图 4-1 所 示 。 


goto 语 句 可 以 让 代码 更 简洁 、 清 晰 一 一 比如 内 核 代码 


于 实现 “长 跳 转 ”。 对 比 goto 语 句 只 能 在 函数 内 部 的 “ 短 跳 转 ”，longjmp 可 以 实现 跨 函 数 的 “长 跳 转 ”。 下 面 我 们 来 详细 看 看 


子 进程 
(僵尸 状态 ) 


图 4-1 进程 的 生命 周期 


本 章 将 会 介绍 进程 ID、 进 程 的 层次 ， 以 及 进程 生命 周期 内 的 各 个 阶段 。 


4.1 进程 ID 


Linux 下 每 个 进程 都 会 有 一 个 非 负 整数 表示 的 唯一 进程 ID， 简 称 pid。Linux 提 供 了 getpid 函 数 来 获取 进程 的 pid， 同 时 还 提供 了 getppid 函 数 来 获取 父 进程 的 pid， 相 关 接 口 定 义 如 下 : 


#include <sys/types.h> 
#include <unistd.h> 
pid t getpid(void) 
pid t getppid(void); 


每 个 进程 都 有 自己 的 父 进程 ， 父 进程 又 会 有 自己 的 父 进程 ， 最 终 都 会 追溯 到 1 号 进程 即 init 进 程 。 这 就 决定 了 操作 系统 上 所 有 的 进程 必然 会 组 成 树 状 结构 ， 就 像 一 个 家 族 的 家 谱 一 样 。 可 以 通过 pstree 的 
命令 来 查看 进程 的 家 族 树 。 


procfs 文 件 系 统 会 在 /proc 下 为 每 个 进程 创建 一 个 目录 ， 名 字 是 该 进程 的 pid。 目 录 下 有 很 多 文件 ， 用 于 记录 进程 的 运行 情况 和 统计 信息 等 ， 如 下 所 示 : 


11 /proc 总 用 量 0 


dr-xr-xr-x 9 root root 0 4 月 1 06:56 1 

dr-xr-xr-x 9 root root 0 4 月 1 06:56 10 

dr-xr-xr-x 9 root root 0 4 月 1 06:56 100 
dr-xr-Xxr-x 9 root root 0 4 月 1 06:56 101 
dr-xr-xr-x 9 roct root 0 4 月 1 06:56 102 
Ur-xr-Xr-x% 9 root root 0 4 月 1 06:56 103 
Ur-x*r-%r-x 9 roct root 0 4 月 1 06:56 1039 
dr-xr-xr-x 9 root root 0 4 月 1 06:56 104 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/... 


因为 进程 有 创建 ， 也 有 终止 ， 所 以 /proc/ 下 记录 进程 信息 的 目录 (以 及 目录 下 的 文件 ) 也 会 发 生变 化 。 


操作 系统 必须 保证 在 任意 时 记者 不 能 出 现 两 个 进程 有 相同 pid 的 情况 。 昌 然 进程 ID 是 唯一 的 ， 但 是 进程 ID 可 以 重用 。 进 程 退出 以 后 ， 其 进程 ID 还 可 以 再 次 分 配给 其 他 的 进程 使 用 。 那 么 问题 就 来 了 ， 内 
核 是 如 何 分 配 进程 ID 的 ? 


Linux 分 配 进程 ID 的 算法 不 同 于 给 进程 分 配 文件 描述 符 的 最 小 可 用 算法 ， 它 采用 了 延迟 重用 的 算法 ， 即 分 配给 新 创建 进程 的 ID 尽量 不 与 最 近 终止 进程 的 ID 重复 ， 这 样 就 可 以 防止 将 新 创建 的 进程 误 判 为 
使 用 相同 进程 ID 的 已 经 退出 的 进程 。 


那么 如 何 实现 延迟 重用 呢 ?内核 采用 的 方法 如 下 : 


1) 位 图 记录 进程 1D 的 分 配 情况 (0 为 可 用 ，1 为 已 占用 ) 。 


2) 将 上 次 分 配 的 进程 ID 记录 到 last_pid 中 ， 分 配 进程 ID 时 ， 从 last_pid+1 开 始 找 起 ， 从 位 图 中 寻找 可 用 的 1D。 
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3) 如 果 找 到 位 图 集合 的 最 后 一 位 仍 不 可 用 ， 则 回 滚 到 位 图 集合 的 起 始 位 置 ， 从 头 开始 找 


既然 是 位 图 记录 进程 ID 的 分 配 情况 ， 那 么 位 图 的 大 小 就 必须 要 考虑 周全 。 位 图 的 大 小 直接 决定 了 系统 允许 同时 存在 的 进程 的 最 大 个 数 ， 这 个 最 大 个 数 在 系统 中 称 为 pid_max。 


上 面 的 第 3 步 提 到 ， 回 绕 到 位 图 集合 的 起 始 位 置 ， 从 头 寻 找 可 用 的 进程 ID。 事 实 上 ， 严 格 说 来 ， 这 种 说 法 并 不 正确 ，。 回 绕 时 并 不 是 从 0 开始 找 起 ， 而 是 从 300 开 始 找 起 。 内 核 在 kernel/pid.c 文 件 中 定义 了 
RESERVED_PIDS， 其 值 是 300，300 以 下 的 pid 会 被 系统 占用 ， 而 不 能 分 配给 用 户 进程 : 


define RESERVED PIDS 300 
int pid max = PID MAX DEFAULT; 


Linux 系 统 下 可 以 通过 procfs 或 sysctl 命 令 来 查看 pid_max 的 值 : 


manu@manu-rush:~$ cat /proc/sys/kernel/pid max 
131072 
manu@manu-rush:~$ sysctl kernel.pid max 
kernel.pid max = 131072 加 


其 实 ， 此 上 限 值 是 可 以 调整 的 ， 系 统管 理 员 可 以 通过 如 下 方法 来 修改 此 上 限 值 : 


root@manu-rush:~# sysctl -w kernel.pid max=4194304 


kernel .pid max = 4194304 


但 是 内 核 自 己 也 设置 了 硬 上 限 ， 如 果 尝 试 将 pid_max 的 值 设 成 一 个 大 于 硬 上 限 的 值 就 会 失败 ， 如 下 所 示 : 


root@manu-rush:~# sysctl -w kernel.pid max=4194305 
error: "Invalid argument" setting key "kernel.pid max" 


从 上 面 的 操作 可 以 看 出 ，Linux 系 统 将 系统 进程 数 的 硬 上 限 设置 为 4194304 (4M) 。 内 核 又 是 如 何 决定 系统 进程 个 数 的 硬 上 限 的 呢 ? 对 此 ， 内 核定 义 了 如 下 的 宏 : 


#define PID MAX LIMIT (CONFIG BASE SMALL ? PAGFE SIZE * 8 : \ 
(sizeof (long) > 4 ? 4 * 1024 * 1024 :PID MAX DEFAULT)) 


从 上 面 代码 中 可 以 看 出 决定 系统 进程 个 数 硬 上 限 的 逻辑 为 : 


“ 如 果 选 择 了 CONFIG_BASE_SMAILL 编 译 选项 ， 则 为 页 面 (PAGE_SIZE) 的 位 数 。 
. 如 果 选 择 了 CONFIG_BASE_FULL 编译 选项 ， 那 么 : 
: 对 于 32 位 系统 ， 系 统 进 程 个 数 硬 上 限 为 32768 ( 即 32K) 。 


' 对 于 64 位 系统 ， 系 统 进 程 个 数 硬 上 限 为 4194304 ( 即 4M) 。 


通过 上 面 的 讨论 可 以 看 出 ， 在 64 位 系统 中 ， 系 统 容许 创建 的 进程 的 个 数 超过 了 400 万 ， 这 个 数字 是 相当 庞大 的 ， 足 够 应 用 层 使 用 。 


对 于 单线 程 的 程序 ， 进 程 1D 比 较 好 理解 ， 就 是 唯一 标识 进程 的 数字 。 对 于 多 线程 的 程序 ， 每 一 个 线程 调用 getpid 函 数 ， 其 返回 值 都 是 一 样 的 ， 即 进程 的 ID。 


4.2 ”进程 的 层次 


每 个 进程 都 有 父 进 程 ， 父 进程 也 有 父 进 程 ， 这 就 形成 了 一 个 以 init 进 程 为 根 的 家 族 树 。 除 此 以 外 ， 进 程 还 有 其 他 层次 关系 : 进程 、 进 程 组 和 会 话 。 


进程 组 和 会 话 在 进程 之 间 形 成 了 两 级 的 层次 : 进程 组 是 一 组 相关 进程 的 集合 ， 会 话 是 一 组 相关 进程 组 的 集合 。 用 人 来 打 比 方 ， 会 话 如 同一 个 公司 ， 进 程 组 如 同 公司 里 的 部 门 ， 进 程 则 如 同 部 门 里 的 员 
工 。 尽 管 每 个 员工 都 有 父亲 ， 但 是 不 影响 员工 同时 属于 某 个 公司 中 的 某 个 部 门 。 


这 样 说 来 ， 一 个 进程 会 有 如 下 ID: 
“ PID: 进程 的 唯一 标识 。 对 于 多 线程 的 进程 而 言 ， 所 有 线程 调用 getpid 函 数 会 返回 相同 的 值 。 
“ PGID: 进程 组 ID。 每 个 进程 都 会 有 进程 组 ID， 表 示 该 进程 所 属 的 进程 组 。 默 认 情 况 下 新 创建 的 进程 会 继承 父 进程 的 进程 组 ID。 


“ SID: 会 话 ID。 每 个 进程 也 都 有 会 话 ID。 上 默认 情况 下 ， 新 创建 的 进程 会 继承 父 进 程 的 会 话 ID。 


可 以 调用 如 下 指令 来 查看 所 有 进程 的 层次 关系 : 


ps -ejH 
ps axjf 


对 于 进程 而 言 ， 可 以 通过 如 下 函数 调用 来 获取 其 进程 组 I/D 和 会 话 ID。 


#include <unistd.h> 
pid t getpgrp (void); 
pid t getsid(pid t pid); 


前 面 提 到 过 ， 新 进程 默认 继承 父 进程 的 进程 组 ID 和 会 话 ID， 如 果 都 是 默认 情况 的 话 ， 那 么 追根 溯源 可 知 ， 所 有 的 进程 应 该 有 共同 的 进程 组 ID 和 会 话 ID。 但 是 调用 ps axjf 可 以 看 到 ， 实 际 情况 并 非 如 此 ， 
系统 中 存在 很 多 不 同 的 会 话 ， 每 个 会 话 下 也 有 不 同 的 进程 组 。 


为 何 会 如 此 呢 ? 


就 像 家 族 企业 一 样 ， 如 果 从 创业 之 初 ， 所 有 家 族 成 员 都 墨守成规 ， 循 规 蹈 和 矩 ， 默 认 情 况 下 ， 就 只 会 有 一 个 公司 、 一 个 部 门 。 但 是 也 有 些 “叛逆 ”的 子弟 ， 愿 意 为 家 族 公司 开 疆 拓 土 ， 愿 意 成 立新 的 部 
门 。 这 些 新 的 部 门 就 是 新 创建 的 进程 组 。 如 果 有 子弟 “ 离 经 产道 ”， 甚 至 不 愿意 呆 在 家 族 公 司 里 ， 他 别 开 天 地 ， 另 创 了 一 个 公司 ， 那 这 个 新 公司 就 是 新 创建 的 会 话 组 。 由 此 可 见 ， 系 统 必须 要 有 改变 和 设置 
进程 组 ID 和 会 话 ID 的 函数 接口 ， 否 则 ， 系 统 中 只 会 存在 一 个 会 话 、 一 个 进程 组 。 


» 


进程 组 和 会 话 是 为 了 支持 shell 作 业 控 制 而 引入 的 概 


当 有 新 的 用 户 登录 Linux 时 ， 登 录 进 程 会 为 这 个 用 户 创建 一 个 会 话 。 用 户 的 登录 shell 就 是 会 话 的 首 进程 。 会 话 的 首 进 程 1D 会 作为 整个 会 话 的 ID。 会 话 是 一 个 或 多 个 进程 组 的 集合 ， 圳 括 了 登录 用 户 的 所 
有 活动 。 


在 登录 shell 时 ， 用 户 可 能 会 使 用 管道 ， 让 多 个 进程 互相 配合 完成 一 项 工作 ， 这 一 组 进程 属于 同一 个 进程 组 。 


当 用 户 通过 SSH 客 户 端 工具 (putty、xshell 等 ) 连 入 Linux 时 ， 与 上 述 登录 的 情景 是 类 似 的 。 


4.3 ”进程 的 创建 之 fork () 


Linux 系 统 下 ， 进 程 可 以 调用 fork 函 数 来 创建 新 的 进程 。 调 用 进程 为 父 进程 ， 被 创建 的 进程 为 子 进程 。 


fork 函 数 的 接口 定义 如 下 : 


#include <unistd.h> 
pid t fork(void) 


与 普通 函数 不 同 ，fork 函 数 会 返回 两 次 。 一 般 说 来 ， 创 建 两 个 完全 相同 的 进程 并 没有 太 多 的 价值 。 大 部 分 情况 下 ， 父 子 进程 会 执行 不 同 的 代码 分 支 。fork 函 数 的 返回 值 就 成 了 区 分 父子 进程 的 关键 。 
fork 函 数 向 子 进程 返回 0， 并 将 子 进 程 的 进程 1D 返 给 父 进程 。 当 然 了 ， 如 果 fork 失 败 ， 该 函数 则 返回 -1， 并 设置 errno。 


常见 的 出 错 情景 如 表 4-1 所 示 。 


表 4-1 fo 全 函数 可 能 的 errmno 


errno 说 明 
EAGAIN 超出 了 用 户 容 许 创 建 的 进程 上 限 ， 也 可 能 是 超出 了 系统 容许 的 进程 个 数 的 上 限 
ENOMEM 无 法 分 配 相应 的 内 核 结 构 ， 内 存 紧张 的 情况 下 ， 可 能 发 生 该 错误 
ENOSYS 平台 不 支持 fork 


所 以 一 般 而 言 ， 调 用 fork 的 程序 ， 大 多 会 如 此 处 理 : 


ret = fork(); 
if(ret == 0) 

…V/ 此 处 是 子 进程 的 代码 分 支 
} 


else if(ret > 0) 


…V// 此 处 是 父 进 程 的 代码 分 支 


…V/ fork 失 败 ， 执 行 error handle 


@@ 济 fo 中 可 能 失败 。 检 查 返 回 值 进 行 正确 的 出 错 处 理 ， 是 一 个 非常 重要 的 习惯 。 设 想 如 果 fo 引 返回 -1， 而 程序 没有 判断 返回 值 ， 直 接 将 -1 当成 子 进程 的 进程 号 ， 那 么 后 面 的 代码 执行 
kill (child_pid，9) 就 相当 于 执行 kill (-1，9) 。 这 会 发 生 什么 ? 后果 是 惨重 的 ， 它 将 杀 死 除了 init 以 外 的 所 有 进程 ， 只 要 它 有 权限 。 读 者 可 以 通过 man 2 kill 来 查看 kill (-1，9) 的 含义 。 


fork 之 后 ， 对 于 父子 进程 ， 谁 先 获得 CPU 资 源 ， 而 率先 运行 呢 ? 


从 内 核 2.6.32 开 始 ， 在 默认 情况 下 ， 父 进程 将 成 为 fork 之 后 优先 调度 的 对 象 。 采 取 这 种 策略 的 原因 是 : fork 之 后 ， 父 进程 在 CPU 中 处 于 活跃 的 状态 ， 并 且 其 内 存 管 理 信息 也 被 置 于 硬件 内 存 管 理 单元 的 
转译 后 备 缓冲 器 (TLB) ， 所 以 先 调度 父 进程 能 提升 性 能 。 


从 2.6.24 起 ，Linux 采 用 完全 公平 调度 (Completely Fair Scheduler，CFS) 。 用 户 创建 的 普通 进程 ， 都 采用 CFS 调 度 策略 。 对 于 CFS 调 度 策略 ，procfs 提 供 了 如 下 控制 选项 : 


/proc/sys/kernel/sched child runs first 


该 值 默认 是 0， 表 示 父 进程 优先 获得 调度 。 如 果 将 该 值 改 成 1， 那 么 子 进程 会 优先 获得 调度 。 


POSIX 标 准 和 Linux 都 没有 保证 会 优先 调度 父 进 程 。 因 此 在 应 用 中 ， 决 不 能 对 父子 进程 的 执行 顺序 做 任何 的 假设 。 如 果 确 实 需要 某 一 特定 执行 的 顺序 ， 那 么 需要 使 用 进程 间 同 步 的 手段 。 


4.4 进程 的 创建 之 vfork () 


在 早期 的 实现 中 ，fork 没 有 实现 写 时 拷贝 机 制 ， 而 是 直接 对 父 进 程 的 数据 段 、 堆 和 栈 进行 完全 拷贝 ， 效 率 十 分 低下 。 很 多 程序 在 fork 一 个 子 进程 后 ， 会 紧 接 着 执行 exec 家 族 函 数 ， 这 更 是 一 种 浪费 。 所 
以 BSD 引 入 了 vfork。 既 然 fork 之 后 会 执行 exec 函 数 ， 拷 贝 父 进程 的 内 存 数据 就 变 成 了 一 种 无 意义 的 行为 ， 所 以 引入 的 vfork 压 根 就 不 会 拷贝 父 进程 的 内 存 数 据 ， 而 是 直接 共享 。 再 后 来 Linux 引 入 了 写 时 拷贝 
的 机 制 ， 其 效率 提高 了 很 多 ， 这 样 一 来 ，vfork 其 实 就 可 以 退出 历史 舞台 了 。 除 了 一 些 需要 将 性 能 优化 到 极致 的 场景 ， 大 部 分 情况 下 不 需要 再 使 用 vfork 函 数 了 。 


vfork 会 创建 一 个 子 进程 ， 该 子 进程 会 共享 父 进程 的 内 存 数 据 ， 而 且 系 统 将 保证 子 进程 先 于 父 进 程 获得 调度 。 子 进程 也 会 共享 父 进程 的 地 址 空间 ， 而 父 进 程 将 被 一 直 挂 起 ， 直 到 子 进程 退出 或 执行 exec。 


注意 ，vfork 之 后 ， 子 进程 如 果 返 回 ， 则 不 要 调用 return， 而 应 该 使 用 _exit 函 数 。 如 果 使 用 return， 就 会 出 现 诡 异 的 错误 [0]。 请 看 下 面 的 示例 代码 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
int glob = 88 ; 
int main(void) { 
int var; 
var = 88; 
pid t pid; 
if T(pid = vfork()) < 0) { 
printf ("vfork error"); 
exit (=-1)» 
else if (pid == 0) { /* 子 进程 */ 
Var++7 
globt+; 
return 0; 
printf ("pid=%d, glob=%d, var=%d\n",getpid(), glob, var); 
return 0; 


调用 子 进程 ， 如 果 使 用 return 返 回 ， 就 意味 着 main 函 数 返 回 了 ， 因 为 栈 是 父子 进程 共享 的 ， 所 以 程序 的 函数 栈 发 生 了 变化 。main 函 数 return 之 后 ， 通 常会 调用 exit 系 的 函数 ， 父 进程 收 到 子 进程 的 exit 
之 后 ， 就 会 开始 从 vfork 返 回 ， 但 是 这 时 整个 main 函 数 的 栈 都 已 经 不 复 存 在 了 ， 所 以 父 进程 压根 无 法 执行 。 于 是 会 返回 一 个 诡异 的 栈 地 址 ， 对 于 在 某 些 内 核 版 本 中 ， 进 程 会 直接 报 栈 错误 然后 退出 ， 但 是 在 
某 些 内 核 版 本 中 ， 有 可 能 就 会 再 次 进出 main ， 于 是 进入 一 个 无 限 循环 ， 直 到 vfork 返 回 错 误 。 笔 者 的 Ubuntu 版 本 就 是 后 者 。 


一 般 来 说 ，vfork 创 建 的 子 进程 会 执行 exec， 执 行 完 exec 后 应 该 调用 _exit 返 回 。 注 意 是 _exit 而 不 是 exit。 因 为 exit 会 导致 父 进 程 stdio 缓 冲 区 的 冲刷 和 关闭 。 我 们 会 在 后 面 讲述 exit 和 _exit 的 区 别 。 


[由 请 参考 著名 程序 员 陈 绒 的 《vfo 水 挂 掉 的 一 个 问题 》 一 文 。 


4.5 daemon 进 程 的 创建 


:生命 周期 很 长 ， 一 旦 启动 ， 正 常情 况 下 不 会 终止 ， 一 直 运行 到 系统 退出 。 但 凡事 无 绝对 : daemon 进 程 其 实 也 是 可 以 停止 的 ， 如 很 多 daemon 提 供 了 stop 命 令 ， 执 行 stop 命 令 就 可 以 终止 daemon， 或 者 通过 


发 送信 号 将 其 杀 死 ， 又 或 者 因为 daemon 进 程 代码 存在 bug 而 异常 退出 。 这 些 退出 一 般 都 是 由 手工 操作 或 因 异 常 引发 的 。 
' 在 后 台 执行 ， 并 且 不 与 任何 控制 终端 相关 联 。 即 使 daemon 进 程 是 从 终端 命令 行 启动 的 ， 终 端 相关 的 信号 如 SIGINT、SIGQUIT 和 SIGTSTP， 以 及 关闭 终端 ， 都 不 会 影响 到 daemon 进 程 的 继续 执行 。 
习惯 上 daemon 进 程 的 名 字 通 常 以 q 结 尾 ， 如 sshd、rsyslogd 等 。 但 这 仅仅 是 习惯 ， 并 非 一 定 要 如 此 。 
如 何 使 一 个 进程 变 成 daemon 进 程 ， 或 者 说 编写 daemon 进 程 ， 需 要 遵循 哪些 规则 或 步骤 呢 ? 
一 般 来 讲 ， 创 建 一 个 daemon 进 程 的 步骤 被 概括 地 称 为 double-fork magic。 细 细 说 来 ， 需 要 以 下 步骤 。 
(1) 执行 fork () 函数 ， 父 进程 退出 ， 子 进程 继续 


执行 这 一 步 ， 原 因 有 二 : 


“ 父 进 程 有 可 能 是 进程 组 的 组 长 (在 命令 行 启动 的 情况 下 ) ， 从 而 不 能 够 执行 后 面 要 执行 的 setsid 函 数 ， 子 进程 继承 了 父 进程 的 进程 组 ID， 并 且 拥 有 自己 的 进程 ID， 一 定 不 会 是 进程 组 的 组 长 ， 所 以 子 进 


程 一 定 可 以 执行 后 面 要 执行 的 setsid 函 数 。 
“ 如 果 daemon 是 从 终端 命令 行 启动 的 ， 那 么 父 进程 退 出 会 被 shell 检 测 到 ，shell 会 显示 shell 提 示 符 ， 让 子 进程 在 后 台 执行 。 
(2) 子 进程 执行 如 下 三 个 步 又， 以 摆脱 与 环境 的 关系 


1) 修改 进程 的 当前 目录 为 根 目录 (/) 。 


这 样 做 是 有 原因 的 ， 因 为 daemon 一 直 在 运行 ， 如 果 当 前 工作 路 径 上 包含 有 根 文 件 系统 以 外 的 其 他 文件 系统 ， 那 么 这 些 文件 系统 将 无 法 卸载 。 因 此 ， 常 规 是 将 当前 工作 目录 切换 成 根 目 录 ， 当 然 也 可 以 
是 其 他 目录 ， 只 要 确保 该 目录 所 在 的 文件 系统 不 会 被 卸载 即 可 。 


chdir (™/") 


2) 调用 setsid 函 数 。 这 个 函数 的 目的 是 切断 与 控制 终端 的 所 有 关系 ,并且 创 建 一 个 新 的 会 话 。 


归属 于 控制 终端 所 关联 的 会 话 。 因 此 无 论 终端 是 否 发 送 SIGINT、SIGQUIT 或 SIGTSTP 信 号 ， 也 无 论 终端 是 否 断 开 ， 都 与 要 创建 的 daemon 进 程 无 关 ， 不 


这 一 步 比较 关键 ， 因 为 这 一 步 确保 了 子 进程 不 
会 影响 到 daemon 进 程 的 继续 执行 。 


3) 设置 文件 模式 创建 掩 码 为 0。 


umask (0) 


= 


这 一 步 的 目的 是 让 daemon 进 程 创建 文件 的 权限 属性 与 shell 脱 离 关 系 。 因 为 默认 情况 下 ， 进 程 的 umask 来 源 于 父 进 程 shell 的 umask。 如 果 不 执行 umask (0) ， 那 么 父 进程 shell 的 umask 就 会 影响 到 
daemon 进 程 的 umask。 如 果 用 户 改变 了 shell 的 umask， 那 么 也 就 相当 于 改变 了 daemon 的 umask， 就 会 造成 daemon 进 程 每 次 执行 的 umask 信 息 可 能 会 不 一 致 。 


(3) 再 次 执行 fork， 父 进程 退出 ， 子 进程 继续 


执行 完 前 面 两 步 之 后 ， 可 以 说 已 经 比较 圆满 了 : 新 建 会 话 ， 进 程 是 会 话 的 首 进 程 ， 也 是 进程 组 的 首 进 程 。 进 程 ID、 进 程 组 ID 和 会 话 ID， 三 者 的 值 相同 ， 进 程 和 终端 无 关联 。 那 么 这 里 为 何 还 要 再 执行 一 


次 fork 函 数 呢 ? 


原因 是 ，daemon 进 程 有 可 能 会 打开 一 个 终端 设备 ， 即 daemon 进 程 可 能 会 根据 需要 ， 执 行 类 似 如 下 的 代码 : 


int fd = open("/dev/console", O RDWR); 
这 个 打开 的 终端 设备 是 否 会 成 为 daemon 进 程 的 控制 终端 ， 取 决 于 两 点 : 
"daemon 进程 是 不 是 会 话 的 首 进 程 。 


系统 实现 。 (BSD 风 格 的 实现 不 会 成 为 daemon 进 程 的 控制 终端 但 是 POSIX 标 准 说 这 由 具体 实现 来 决定 ) 。 


既然 如 此 ， 为 了 确保 万 无 一 失 ， 只 有 确保 daemon 进 程 不 是 会 话 的 首 进 程 ， 才 能 保证 打开 的 终端 设备 不 会 自动 成 为 控制 终端 。 因 此 ， 不 得 不 执行 第 二 次 fork，fork 之 后 ， 父 进程 退出 ， 子 进程 继续 。 这 
时 ， 子 进程 不 再 是 会 话 的 首 进程 ， 也 不 是 进程 组 的 首 进程 了 。 


(4) 关闭 标准 输入 (stdin) 、 标 准 输出 (stdout) 和 标准 错误 (stderr) 


因为 文件 描述 符 0、1 和 2 指向 的 就 是 控制 终端 。daemon 进 程 已 经 不 再 与 任意 控制 终端 相关 联 ， 因 此 这 三 者 都 没有 意义 。 一 般 来 讲 ， 关 闭 了 之 后 ,会 打开 /dev/null， 并 执行 dup2 浮 数 ， 将 0、1 和 2 重 定 
向 到 /dev/null。 这 个 重 定向 是 有 意义 的 ， 防 止 了 后 面 的 程序 在 文件 描述 符 0、1 和 2 上 执行 |/O 库 函数 而 导致 报错 。 


至 此 ， 即 完成 了 daemon 进 程 的 创建 ， 进 程 可 以 开始 自己 真正 的 工作 了 。 


上 述 步 又 比较 繁琐， 对 于 C 语 言 而 言 ，glibc 提 供 了 daemon 函 数 ， 从 而 帮 有 我 们 将 程序 转化 成 daemon 进 程 。 


#include <unistd.h> 
int daemon (int nochdir, int noclose) 


该 函数 有 两 个 入 参 ， 分 别 控制 一 种 行为 ， 具 体 如 下 。 


其 中 的 nochdir， 用 来 控制 是 否 将 当前 工作 目录 切换 到 根 目录 。 


“0: 将 当前 工作 目录 切换 到 /。 


“1: 保持 当前 工作 目录 不 变 。 


而 noclose， 上 


来 控制 是 否 将 标准 输入 、 标 准 输出 和 标准 错误 重 定向 到 /dev/null。 


“ 0: 将 标准 输入 、 标 准 输出 和 标准 错误 重 定向 到 /dev/null。 


“1: 保持 标准 输入 、 标 准 输出 和 标准 错误 不 变 。 


一 般 情况 下 ， 这 两 个 入 参 都 要 为 0。 


ret = daemon (0, 0) 


成 功 时 ，daemon 函 数 返 


回 


glibc 的 daemon 函 数 做 的 事情 ， 和 前 面 


4.6 进程 的 终止 


0; 失败 时 ， 返 回 


-1， 并 和 置 errno。 因 为 daemon 函 数 内 部 会 调 


讨论 


在 不 考虑 线程 的 情况 下 ， 进 程 的 退出 有 以 下 5 种 方式 。 


正常 退出 有 3 种 : 
" 从 main 函 数 return 返 回 
“ 调用 exit 
: 调用 _exit 
异常 退出 有 两 种 : 
“ 调用 abort 


“ 接收 到 信号 ， 由 信号 终止 


4.7 ”等 待 子 进程 


4.7.1 僵尸 进程 


进程 就 像 一 个 生命 体 ， 通 过 fork () 函数 ， 子 进程 吸 


离 家 出 走 ， 走 向 与 父 进 程 完全 不 同 的 道路 。 


令 人 悲伤 的 是 ， 如 同 所 有 的 生命 体 一 样 ， 进 程 也 会 消 | 
减 一 ,或 者 彻底 释放 。 不 过 ， 进 程 的 退出 其 实 并 没有 将 所 有 的 资源 完全 释放 ， 仍 保留 了 少量 的 资 


行 ， 进 程 进入 僵尸 状态 。 


为 什么 进程 退出 之 后 不 将 所 有 的 资源 释放 ， 从 此 灰飞烟灭 ， 一 了 百 了 ， 


进程 控制 块 task_struct、 内 核 栈 等 。 
CPU 时 间 ， 收 到 了 多 少 信号 ， 
之 流逝 ， 系 统 也 将 再 


也 没有 机 会 获知 该 进程 的 相关 信息 了 。 


的 大 体 一 致 ， 但 是 做 得 并 不 彻底 ， 没 有 执行 第 二 次 的 fork。 


原 ， 比 如 进程 的 PID 依 然 被 占 


亡 。 进 程 退 出 时 会 进行 内 核 清理 ， 基 本 就 是 释放 进程 所 有 的 资源 ， 这 些 资源 包括 内 存 资 源 、 文 件 资源 、 信 号 量 资 源 、 


着 ， 不 可 被 系统 分 配 。 此 时 的 进程 不 可 运行 ， 


而 非 要 保留 少量 资 


原 ， 进 入 僵 


尸 状态 呢 ? 看 看 僵 


数 ) ， 这 些 残 存 的 资源 完成 了 它 的 使 命 ， 就 可 以 释放 了 ， 进 程 就 脱离 僵尸 状态 ， 彻 底 消失 了 。 


从 上 面 的 讨论 可 以 看 出 ， 制 造 一 个 僵尸 进程 是 一 件 很 容易 的 事 | 


程 。 示 例 代码 如 下 : 


发 生 了 多 少 次 上 下 文 切换 ， 最 大 内 存 驻 留 集 是 多 少 ， 产 生 多 少 缺 页 中 断 ? 等 等 。 这 些 信息 ， 就 像 墓志 铭 ， 总 结 了 进程 的 一 4 
因此 进程 退出 后 ， 会 保留 少量 的 资源 ， 等 待 父 进程 前 来 收集 这 些 信息 。 一 旦 父 进程 收集 了 这 些 信息 之 后 (通过 调 


尸 进程 依然 占有 的 系统 资源 ， 我 们 就 能 获得 答案 。 僵 
这 些 资 源 不 释放 是 为 了 提供 一 些 重要 的 信息 ， 比 如 进程 为 何 退 出 ， 是 收 到 信号 退出 还 是 正常 退出 ， 进 程 退出 码 是 多 少 ， 进 程 一 共 消 耗 了 多 少 系统 CPU 时 间 ， 多 少 
E。 如 果 没 有 这 个 僵尸 状 态 


fork 函 数 和 setsid 函 数 ， 所 以 出 错时 errno 可 以 查看 fork 函 数 和 setsid 函 数 的 出 错 情形 。 


共享 内 存 资源 ， 或 者 引 


fork 创 建 子 进程 ， 子 进程 退出 后 ， 父 进程 如 果 不 调 


wait 或 waitpid 来 获取 子 进程 的 退 


下 面 


出 信息 ， 子 进程 就 会 沦 为 僵尸 


〖 险 地 。 有 的 子 进程 子 承 父 业 ， 继 续 执行 与 父 进程 一 样 的 程序 (相同 的 代码 段 ， 尽 管 可 能 是 不 同 的 程序 分 支 ) ， 有 的 子 进程 则 比较 叛逆 ， 通 过 exec 


计数 


事实 上 也 没有 地 址 空间 让 其 运 


尸 进程 依然 保留 的 资源 有 


一 | 


， 进 程 的 这 些 信息 也 会 随 
提 到 的 wait/waitpid 等 函 


许 


<stdio.h> 
#include <stdlib.h> 
#include <sys/types.h> 
#include <unistd.h> 
int main() 
{ 

pid t pid; 

pid=fork (); 

if (pig<0) 


#include 


/* 如 果 出 错 */ 


printf ("error occurred!\n"); 
} 
else if (pid==0) 


/* 子 进程 */ 
exit (0); 
} 


else 


/* 区 进程 */ 


sleep (300); /* 休眠 300 秒 */ 


wait (NULL) ; /* 获取 僵尸 进程 的 退出 信息 */ 


return 0; 


上 面 的 例子 中 父 进程 休眠 300 秒 后 才 会 调 


wait 来 获取 子 进程 的 退出 信息 。 而 子 进程 退出 之 


后 会 变 成 僵 


尸 状态 ， 苦 苦 等 待 父 进程 来 获取 退出 信息 。 在 这 300 秒 左右 的 时 间 里 ， 子 进程 就 是 一 个 僵 


尸 进程 。 


如 何 查看 一 个 进程 是 否 处 于 僵尸 状态 呢 ? ps 命令 输出 的 进程 状态 Z， 就 表示 进程 处 于 僵尸 状态 ， 另 外 procfs 提 供 的 status 信 息 中 的 State 给 出 的 值 是 Z (zombie) ， 也 表明 进程 处 于 僵尸 状态 。 


S_aX 
了 ://www.hzcourse.com/resource/readBook?Path=/openresources/teach_ebook/uncompressed/15735/OEBPSVText/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach e 
3940 pts/10 5S 0:00 ./zombie 
3941 pts/10 2 0:00 [zombie] <defunct> 
cat /proc/3941/status 
Name: zombie 
State: Zz (zombie) 
Tgid: 3941 
Ngid: 0 
Pids 3941 


PPid: 3940 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/. .http://www.hzcourse.com/resource/readBook?path=/openresources/teach ek 


进程 一 旦 进入 僵尸 状态 ， 就 进入 了 一 种 刀枪 不 入 的 状态 ，“ 杀 人 不 瞬 眼 ”的 kill-9 也 无 能 为 力 ， 因 为 谁 也 没有 办 法 杀 死 一 个 已 经 死去 的 进程 。 


清除 僵尸 进程 有 以 下 两 种 方法 : 
“ 父 进程 调用 wait 函 数 ， 为 子 进程 “ 收 户 ”。 


“ 父 进程 退出 ，init 进 程 会 为 子 进 程 “ 收 尸 ”。 


一 般 而 言 ， 系 统 不 希望 大 量 进 程 长 期 处 于 僵尸 状态 ， 因 为 会 浪费 系统 资源 。 除 了 少量 的 内 存 资源 外 ， 比 较 重要 的 是 进程 ID。 僵 尸 进程 并 没有 将 自己 的 进程 ID 归还 给 系统 ， 而 是 依然 占有 这 个 进程 ID， 因 
此 系统 不 能 将 该 1D 分 配给 其 他 进程 。 


对 于 编程 来 说 ， 如 何 防范 僵尸 进程 的 产生 呢 ? 答案 是 具体 情况 具体 分 析 。 


王国 


如 果 我 们 不 关心 子 进程 的 退出 状态 ， 就 应 该 将 父 进程 对 SIGCHLD 的 处 理 函 数 设 置 为 SIG_IGN， 或 者 在 调用 sigaction 函 数 时 设置 SA_NOCLDWAIT 标 志 位 。 这 两 者 都 会 明确 告诉 子 进程 ， 父 进程 很 “ 绝 
情 ” ， 不 会 为 子 进程 “ 收 户 ”。 子 进程 退出 的 时 候 ， 内 核 会 检查 父 进 程 的 SIGCHLD 信 号 处 理 结构 体 是否 设 置 了 SA_NOCLDWAIT 标 志 位 ， 或 者 是 否 将 信号 处 理 函 数 显 式 地 设 为 SG_ IJGN。 如 果 是 ， 则 
autoreap 为 true， 子 进程 发 现 autoreap 为 true 也 就 “死心 ”了 ， 不 会 进入 僵尸 状态 ， 而 是 调用 release_task 函 数 “ 自 行 了 断 ” 了 。 


如 果 父 进程 关心 子 进程 的 退出 信息 ， 则 应 该 在 流程 上 妥善 设计 ， 能 够 及 时 地 调用 wait， 使 子 进程 处 于 僵尸 状态 的 时 间 不 会 太 久 。 


对 于 创建 了 很 多 子 进程 的 应 用 来 说 ， 知 道子 进程 的 返回 值 是 有 意义 的 。 比 如 说 父 进程 维护 一 个 进程 池 ， 通 过 进程 池 里 的 子 进程 来 提供 服务 。 当 子 进程 退出 的 时 候 ， 父 进程 需要 了 解 子 进程 的 返回 值 来 确 
定子 进程 的 “死因 ”， 从 而 采取 更 有 针对 性 的 措施 。 


4.8 ”exec 家 族 


前 面 讨 论 了 进程 的 创建 和 退出 ，exec 家 族 函 数 在 其 中 犹 抱 琵 琵 半 庶 面 ， 现 在 是 时 候 让 exec 家 族 函 数 登台 亮相 了 。 


Ru 


整个 exec 家 族 有 6 个 函数 ， 这 些 函 数 都 是 构建 在 execve 系 统 调 用 之 上 的 。 该 系统 调用 的 作用 是 ， 将 新 程序 加 载 到 进程 的 地 址 空间 ， 丢 弃 旧 有 的 程序 ， 进 程 的 栈 、 数 据 段 、 堆 栈 等 会 被 新 程序 蔡 换 。 


基于 execve 系 统 调用 的 6 个 exec 函 数 ， 接 口 虽然 各 异 ， 实 现 的 功能 却 是 相同 的 ， 首 先 我 们 来 讲述 与 系统 调用 同名 的 execve 函 数 。 


4.9 System 函数 


前 面 提 到 了 fork 函 数 、exec 系 列 函数 、wait 系 列 函数 。 库 将 这 些 接口 熔 合 在 一 起 ， 提 供 了 一 个 System 函数 。 程 序 可 以 通过 调用 system 函 数 ， 来 执行 任意 的 shell 命 令 。 相 信 很 多 程序 员 都 用 过 system 辑 
因为 它 起 到 了 一 个 粘 合剂 的 作用 ， 可 以 让 (程序 很 方便 地 调用 其 他 语言 编写 的 程序 。 同 时 ， 相 信 有 很 多 程序 员 被 system 函 数 折磨 过 ， 当 出 现 错误 时 ， 如 何 根据 system 函 数 的 返回 值 ， 定 位 失败 的 原因 是 


数 
个 比较 头疼 的 问题 。 下 面 我 们 来 细 细 展开 。 


4.10 总 结 


进程 是 操作 系统 非常 重要 的 概念 。 和 程序 相 比 ， 进 程 是 有 生命 的 ， 是 流动 的 。 本 章 介绍 了 进程 的 一 生 ， 从 进程 被 创建 到 调用 exec 奔 向 新 生活 ， 从 进程 退出 到 父 进 程 等 待 子 进程 ， 另 外 还 介绍 了 上 述 接口 


的 综合 即 system 函 数 ， 以 及 通过 system 函 数 来 执行 程序 。 


第 5 章 ”进程 控制 : 状态 、 调 度 和 优先 级 


第 4 章 介绍 了 进程 的 一 生 ， 从 创建 (fork 或 vfork) 到 走向 新 的 征程 (exec) ， 从 退出 (exit 或 _ exit) 到 被 父 进程 或 init 进 程 “ 收 户 ” (wait) 。 


本 章 将 介绍 进程 的 其 他 方面 ， 主 要 包括 : 


“ 进程 在 其 或 长 或 短 的 一 生 中 可 能 处 于 的 状态 。 
“内核 如 何 调度 进程 使 用 CPU 资 源 。 
“ 进程 如 何 调整 优先 级 ， 以 求 获得 更 多 或 更 少 的 CPU 资源 。 


“ 对 于 有 实时 性 要 求 的 进程 如 何 设置 调度 策略 以 满足 其 要 求 。 


“ 如 何 把 进程 绑 定 到 某 个 或 菜 些 CPU 上 执行 。 


5.1 进程 的 状态 


故 球 风 不 终 朝 ， 又 雨 不 终日 。 就 为 此 者 ? 天 地 。 天 地 尚 不 能 久 ， 而 况 於 人 乎 ? 


一 一 老子 《道德 经 》 


加 


有 三 : 


就 像 人 不 可 能 一 刻 不 停 地 工作 一 样 ， 进 程 也 无 法 始终 占有 CPU 运行 。 原 


“ 进程 可 能 需要 等 待 某 种 外 部 条 件 的 满足 ， 在 条 件 满 足 之 前 ， 进 程 是 无 法 继续 执行 的 。 这 种 情况 下 ， 该 进程 继续 占有 CPU 就 是 对 CPU 资源 的 浪费 。 


“ Linux 是 多 用 户 多 任务 的 操作 系统 ， 可 能 同时 存在 多 个 可 以 运行 的 进程 ， 进 程 个 数 可 能 远 远 多 于 CPU 的 个 数 。 一 个 进程 始终 占有 CPU 对 其 他 进程 来 说 是 不 公平 的 ， 进 程 调度 器 会 在 合适 的 时 机 ， 选 择 合 
适 的 进程 使 用 CPU 资源 。 


“ Linux 进 程 支 持 软 实时 ， 实 时 进程 的 优先 级 高 于 普通 进程 ， 实 时 进程 之 间 也 有 优先 级 的 差别 。 软 实时 进程 进入 可 运行 状态 的 时 候 ， 可 能 会 发 生 抢占 ， 抢 占 当 前 运行 的 进程 。 


下 面 ， 首 先 来 讨论 一 下 进程 的 状态 。 


进程 调度 ， 是 任何 一 个 现代 操作 系统 都 要 解决 的 问题 ， 它 是 操作 系统 相当 重要 的 一 个 组 成 部 分 。 首 先 需要 理解 的 一 点 是 ， 进 程 调 度 器 是 对 处 于 可 运行 (TASK_RUNNING) 状态 的 进程 进行 调度 ， 如 果 
进程 并 非 TASK_RUNNING 的 状态 ， 那 么 该 进程 和 进程 调度 是 没有 关系 的 。 


Linux 是 多 任务 的 操作 系统 ， 所 谓 多 任务 是 指 系统 能 够 同时 并 发 地 执行 多 个 进程 ， 哪 怕 是 单 处 理 器 系统 。 在 单 处 理 器 系统 上 支持 多 任务 ， 会 给 用 户 多 个 进程 同时 跑 的 幻觉 ， 事 实 上 多 个 进程 仅仅 是 轮流 使 
CPU 资源 。 只 有 在 多 处 理 器 系统 中 ， 多 个 进程 才能 真正 地 做 到 同时 、 并 行 地 执行 。 


多 任务 系统 可 以 根据 是 否 支持 抢占 分 成 两 类 : 非 抢占 式 多 任务 和 抢占 式 多 任务 。 在 非 抢占 式 多 任务 的 系统 中 ， 下 一 个 任务 被 调度 的 前 提 是 当前 进程 主动 让 出 CPU 的 使 用 权 ， 因 此 非 抢 占 式 多 任务 又 称 为 
合作 型 多 任务 。 而 抢占 式 多 任务 由 操作 系统 来 决定 进程 调度 ， 在 某 些 时 间 点 上 ， 操 作 系统 可 以 将 正在 运行 的 进程 调度 出 去 ， 选 择 其 他 进程 来 执行 。 毫 无 疑问 ，Linux 属 于 抢占 式 多 任务 系统 。 事 实 上 ， 大 多 数 
的 现代 操作 系统 都 是 抢占 式 的 多 任务 系统 。 


CPU 是 一 种 关键 的 系统 资源 。 在 普通 PC 上 CPU 的 核 数 不 过 4 核 、8 核 等 ， 在 服务 器 上 可 能 有 16 核 、32 核 甚至 更 多 。 在 系统 负载 始终 比较 轻 ( 即 可 运行 状态 的 进程 不 多 ) 的 情况 下 ， 进 程 调度 的 重要 性 并 
不 大 。 但 是 如 果 系 统 的 负载 很 高 ， 有 几 百 上 干 的 进程 处 于 可 运行 的 状态 。 那 么 一 套 合理 高 效 的 调度 算法 就 非常 重要 了 。 


此 外 ， 不 同 的 进程 之 间 ， 其 行为 模式 可 能 存在 着 巨大 的 差异 。 进 程 的 行为 模式 可 以 粗略 地 分 成 两 类 : CPU 消耗 型 (CPU bound) 和 I/O 消 耗 型 (I/O bound) 。 所 谓 CPU 消 耗 型 是 指 进程 因为 没有 太 多 
的 MO 需求 ， 始 终 处 于 可 运行 的 状态 ， 始 终 在 执行 指令 。 而 MO 消耗 型 是 指 进程 会 有 大 量 /O 请 求 (比如 等 待 键盘 键入 、 读 写 块 设备 上 的 文件 、 等 待 网 络 /O 等 ) ， 它 处 于 可 执行 状态 的 时 间 不 多 ， 而 是 将 更 多 
的 时 间 耗 费 在 等 待 上 。 当 然 这 种 划分 方法 并 非 绝 对 的 ， 可 能 有 些 进程 某 段 时 间 表 现 出 CPU 消耗 型 的 特征 ， 另 一 段 时 间 又 表现 出 MO 消耗 型 的 特征 。 


还 有 另外 一 种 进程 分 类 的 方法 ， 如 下 。 


交互 型 进程 : 这 种 类 型 的 进程 有 很 多 的 人 机 交互 ， 进 程 会 不 断 地 陷入 休眠 状态 ， 等 待 键盘 和 和 鼠标 的 输入 。 但 是 这 种 进程 对 系统 的 响应 时 间 要 求 非常 高 ， 用 户 输入 之 后 ， 进 程 必 须 被 及 时 唤醒 ， 否 则 用 


变 
户 就 会 觉得 系统 反应 迟钝 。 比 较 典 型 的 例子 是 文本 编辑 程序 和 图 形 处 理 程序 等 。 


“ 批 处 理 型 进程 : 这 类 进程 和 交互 型 的 进程 相反 ， 它 不 需要 和 用 户 交互 ， 通 常 在 后 台 执行 。 这 样 的 进程 不 需要 及 时 的 响应 。 比 较 典 型 的 例子 是 编译 、 大 规模 科学 计算 等 ， 一 般 来 说 ， 这 种 进程 总 是 “被 
侮 夯 的 和 被 损害 的 ”。 


“ 实时 进程 : 这 类 进程 优先 级 比较 高 ， 不 应 该 被 普通 进程 和 优先 级 比 它 低 的 进程 阻塞 。 一 般 需要 比较 短 的 响应 时 间 。 


系统 之 中 ， 有 很 多 性 格 各 异 的 进程 ， 这 就 增加 了 设计 调度 器 的 难度 。 有 一 个 很 有 意思 的 比喻 来 描述 调度 器 的 困境 中 : Linux 内 核 调度 器 就 像 处 境 尴 炊 的 主妇 ， 满 足 孩 子 对 晚餐 的 要 求 便 有 可 能 会 伤害 到 老 
人 的 食欲 ， 做 出 一 桌 让 男女 老少 都 满意 的 饭菜 实在 是 太 难 了 。 


情 ， 它 还 有 很 多 事情 需要 考虑 ， 很 多 目标 需要 达成 : 


设计 一 个 优秀 的 进程 调度 器 绝 不 是 一 件 容易 的 
“ 公平 : 每 一 个 进程 都 可 以 获得 调度 的 机 会 ， 不 能 出 现 “ 饿 死 ” 的 现象 。 


“ 良好 的 调度 延迟 : 尽量 确保 进程 在 一 定 的 时 间 范 围 内 ， 总 能 够 获得 调度 的 机 会 。 


“ 差异 化 : 允许 重要 的 进程 获得 更 多 的 执行 时 间 。 

“ 支持 软 实 时 进程 : 软 实时 进程 ， 比 普通 进程 具有 更 高 的 优先 级 。 

“ 负载 均衡 : 多 个 CPU 之 间 的 负载 要 均衡 ， 不 能 出 现 一 些 CPU 很 忙 ， 而 另 一 些 CPU 很 闲 的 情况 。 
“ 高 吞吐 量 : 单位 时 间 内 完成 的 进程 个 数 尽 可 能 多 。 

“ 简单 高 效 : 调度 算法 要 高 效 。 不 应 该 在 调度 上 花费 太 长 的 时 间 。 


“ 低 耗 电量 : 在 系统 并 不 繁忙 的 情况 下 ， 降 低 系 统 的 耗 电量 。 


在 对 称 多 处 理 器 (SMP) 的 系统 上 ， 存 在 着 多 个 处 理 器 ， 那 么 所 有 处 于 可 运行 状态 的 进程 是 应 该 位 于 一 个 队列 上 ， 还 是 每 个 处 理 器 都 要 有 自己 的 队列 ”这 大 概 是 进程 调度 首先 要 解决 的 问题 。 


目前 Linux 采 用 的 是 每 个 CPU 都 要 有 自己 的 运行 队列 ， 即 per cpu run queue。 每 个 CPU 去 自己 的 运行 队列 中 选择 进程 ， 这 样 就 降低 了 竞争 。 这 种 方案 还 有 另外 一 个 好 处 : 缓存 重 利用 。 某 个 进程 位 于 这 
个 CPU 的 运行 队列 上 ， 经 过 多 次 调度 之 后 ， 内 核 趋 于 选择 相同 的 CPU 执行 该 进程 。 这 种 情况 下 上 次 运行 的 变量 很 可 能 仍然 在 CPU 的 缓存 中 ， 这 样 就 提升 了 效率 。 


所 有 的 CPU 共用 一 个 运行 队列 这 种 方案 的 弊端 是 显而易见 的 ， 尤 其 是 在 CPU 数目 很 多 的 情况 下 。 我 们 可 以 想象 一 下 如 果 存 在 1024 个 CPU， 都 要 去 同一 个 运行 队列 取 下 一 个 调度 的 进程 ， 这 种 竞争 无 疑 会 
降低 调度 器 的 性 能 。 


但 是 凡事 无 绝对 ， 没 有 最 好 的 ， 只 有 最 适合 的 。 对 于 CPU 核 数 比较 少 的 桌面 应 用 来 说 ， 只 有 一 个 运行 队列 的 Brain Fuck Scheduler (脑残 调度 器 ) 却 表现 的 异常 出 色 。[BI] 


Linux 选 择 了 每 一 个 CPU 都 有 自己 的 运行 队列 这 种 解决 方案 。 这 种 选择 也 带 来 了 一 种 风险 : CPU 之 间 负 载 不 均衡 ， 可 能 出 现 一 些 CPU 闲 着 而 另外 一 些 CPU 忙 不 过 来 的 情况 。 为 了 解决 这 个 问 
题 ，load_balance 就 闪 亮 登场 了 。load_balance 的 任务 就 是 在 一 定 的 时 机 下 ， 通 过 将 任务 从 一 个 CPU 的 运行 队列 迁移 到 另 一 个 CPU 的 运行 队列 ， 来 保持 CPU 之 间 的 负载 均衡 。 


进程 调度 具体 要 做 哪些 事情 呢 ? 概括 地 说 ， 进 程 调度 的 职责 是 挑选 下 一 个 执行 的 进程 ， 如 果 下 一 个 被 调度 到 的 进程 和 调度 前 运行 的 进程 不 是 同一 个 ， 则 执行 上 下 文 切换 ， 将 新 选择 的 进程 投入 运行 。 


下 面 根据 调度 的 入 口 点 函数 schedule () 来 看 下 进程 调度 做 了 哪些 事情 ， 代 码 如 下 : 


asmlinkage void __ sched schedule (void) 


struct task struct *tsk = current; 
sched submit work (tsk); 
__ schedule(); 


static void _ sched _ schedule (void) 
{ 
struct task struct *prev, *next; 
unsigned long *switch count; 
struct rq *rq; 
int cpu; 
need_resched: 
preempt disable(); 
cpu = smp processor id(); 
rq= cpu rq(cpu); 
rcu note context switch (cpu); 
prev = rg->curr;™ 
schedule debug (prev); 
if (sched feat (HRTICK)) 
hrtick clear(rq); 
raw spin lock irq(&rq->lock); 
switch count = g&prev->nivcsw; 
if (prev->state && !(preempt count() & PREEMPT ACTIVE)) { 


if (unlikely(signal . pending : state (prev-. >state, prev))) { 
Prev->state = TASK RUNNING; 
} else { 


/* 先 前 的 进程 不 再 处 于 可 执行 状态 ， 需 要 将 其 从 运行 队列 中 移 除 出 去 */ 
deactivate task(rq, prev, DEQUEUE SLEEP); 
prev->on rq = 0; 
if (prev->flags & PF "WO WORKER) { 

struct task struct *to wakeup; 

to wakeup = wq_worker sleeping (prev, cpu); 

if (to wakeup) 

try to wake up local (to wakeup); 

} 


switch count = &prev->nvesw; 


} 
/* 调 度 之 前 的 准备 工作 */ 
pre_schedule (rq，prev) ;/* 当 前 CPU 运 行 队列 上 没有 可 运行 的 进程 了 ， 太 闲 了 ， 需 要 负载 均衡 */ 
if (unlikely(!rq->nr io no 
idle ,balance (cpu, rq. 
/* 将 被 抢占 的 进程 放 入 指 生 靖 各 的 位 守 * [4 
Put prev task (rqg, 人 
/* 挑 选 下 一 个 执行 的 进程 * 
next = pick next 人 
/清除 被 失 占 过 生肖 度 轩 让 志 位 */ 
Clear tsk need resched (prev); 
rq->skip clock update = 0; 
V/* 如 果 选 中 的 进程 与 原 进程 不 是 同一 个 进程 ， 则 需要 上 下 文 切 换 */ 
if (likely(prev != next)) { 
rq->nr switchest++; 
rq->curr = next; 
++*switch count; 
/* 上 下 文 切 换 ， 切 换 之 后 ， 新 选中 的 进程 投入 执行 */ 
Context switch(rq, prev, next); 
cpu = smp_processor id(); 
rq = cpu rq(cpu); 
} else 
raw_spin unlock irq(&rq->lock); 
Post : schedule (rq); 
preempt_ enable no resched(); 
if (need : resched ()) 
goto need | resched; 


Linux 是 可 抢占 式 内 核 (Preemptive Kernel) ， 从 内 核 2.6 版 本 开始 ，Linux 不 仅 支 持 用 户 态 抢占 ， 也 开始 支持 内 核 态 抢占 。 可 抢占 式 内 核 的 优势 在 于 可 以 保证 系统 的 响应 时 间 。 当 高 优先 级 的 任务 一 旦 
就 绪 ， 总 能 及 时 得 到 CPU 的 控制 权 。 但 是 很 明显 ， 内 核 抢 占 不 能 随意 发 生 ， 某 些 情况 下 是 不 允许 发 生 内 核 抢 占 的 。 因 此 为 了 更 好 地 支持 内 核 抢 占 ， 内 核 为 每 一 个 进程 的 thread_info 引 入 了 preempt_count 
计数 器 ， 数 值 为 0 时 表示 可 以 抢占 ， 当 该 计数 器 的 值 不 为 0 时 ， 表 示 禁 止 抢占 。 


并 不 是 所 有 的 时 机 都 允许 发 生 内核 抢 占 。 以 自 旋 锁 为 例 ， 在 内 核 可 抢占 的 系统 中 ， 自 旋 锁 持 有 期 间 不 允许 发 生 内核 抢 占 ， 否 则 可 能 会 导 臻 其 他 CPU 长 期 不 能 获得 锁 而 死 等 。 因 此 在 spin_lock 函 数 中 ( 通 
_raw_spin_lock) ， 会 调用 preempt disable 宏 ， 而 该 宏 会 将 进程 preempt_count 计 数 器 的 值 加 1， 表 示 不 允许 抢占 。 同 样 的 道理 ， 解 锁 的 时 候 ， 会 将 preempt_count 的 值 减 1 (通过 preempt enable 


过 
宏 


be 


static inline void _ raw spin lock(raw spinlock t *lock) 


preempt disable(); 
spin acquire (glock->dep map, 0, 0, _RET IP ); 
LOCK_CONTENDED (lock, do raw spin trylock, do raw spin lock); 


preempt_count 的 Bit 28 是 一 个 很 重要 的 标志 位 ， 即 PREEMPT_ACTIVE。 该 标志 位 用 来 标记 是 否 正在 进行 内 核 抢占 。 很 明显 ， 设 置 了 该 标志 位 之 后 ，preempt_count 就 不 再 为 0 了 ， 因 此 也 就 不 允许 再 
次 发 生 内 核 抢 占 ， 从 而 使 得 正在 执行 抢占 工作 的 代码 不 会 再 次 被 抢占 。 


内 核 的 preempt_schedule 函 数 是 内 核 抢 占 时 呼叫 调度 器 的 入 口 ， 它 会 调用 _schedule 函 数 发 起 调度 。 在 调用 _schedule 函 数 之 前 ,会 设置 进程 的 PREEMPT_ACTIVE 标 志 位 ， 表 示 这 是 从 抢占 过 程 中 进 
入 _schedule 函 数 的 。 


asmlinkage void _ sched notrace preempt schedule (void) 


struct thread info *ti = current thread info(); 
if (likely(ti->preempt count || irqs disabled())) 
return; 
dof{ 
add | preempt count notrace (PREEMPT ACTIVE); 
schedule (); 
sub ) preempt count notrace (PREEMPT ACTIVE); 
barrier (); 
} while (need resched()); 


在 _schedule 函 数 中 ， 内 核 会 检查 进程 的 PREEMPT_ACTIVE 标 志 位 ， 如 果 发 现 了 该 标志 位 置 位 ， 就 不 会 调 


deactivate task 函 数 将 其 从 运行 队列 中 移 除 。 


PREEMPT_ACTIVE 标 志 位 有 一 个 非常 重要 的 作用 ， 即 防止 不 处 了 


FTASK_RUNNING 状 态 的 进程 被 抢占 过 程 错误 地 从 运行 队列 中 移 除 。 这 和 句 话 非常 地 绕 ， 我 们 结合 _schedule 函 数 的 对 应 代码 来 分 析 该 标 
志 位 的 作用 。 


if (prev->state && ! (preempt _ count () & PREEMPT ACTIVE)) { 
if (unlikely(signal pending state (prev->state, prev))) { 
prev->state = TASK RUNNING; 
} else { 加 
deactivate task(rq, prev, DEQUEUE SLEEP); 
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如 果 进 程 设 置 了 PREEMPT_ACTIVE 标 志 位 ， 上 述 代码 最 外 层 的 条 件 就 不 会 得 到 满足 。 这 么 做 的 用 意 是 : 如 果 进 程 是 被 抢占 而 进入 了 schedule 函 数 ， 那 么 即使 它 不 处 于 TASK_RUNNING 状 态 ， 也 不 能 把 
它 从 运行 队列 中 移 除 。 


为 什么 这 么 做 ”从 运行 队列 中 移 除 不 处 于 TASK_RUNNING 状 态 的 进程 是 shedule 函 数 份 内 之 事 ， 为 什么 设置 了 PREEMPT_ACTIVE 标 志 位 就 不 能 移 除 呢 ? 


原因 是 进程 从 TASK_RUNNING 变 成 其 他 状态 ， 是 一 个 过 程 ， 在 这 个 过 程 中 可 能 发 生 抢占 。 试 想 如 下 场景 : 一 个 进程 刚 把 自己 设置 成 TASK_INTERRUPTIBLE， 它 就 被 抢占 了 。 
调用 schedule () 主动 交 出 CPU 控制 权 ， 仍 然 在 CPU 上 执行 ， 这 就 是 非 TASK_RUNNING 状 态 的 进程 也 会 被 抢占 的 场景 。 对 于 这 种 场景 ， 抢 占 流 程 不 应 擅 
完成 。 


因为 这 时 候 它 还 没 来 得 及 
梅 其 从 运行 队列 中 移 除 ， 因 为 它 的 切换 过 程 并 未 


下 面 的 代码 在 wait_event 系 列 宏 中 不 断 出 现 ， 我 们 以 它 为 例 分 析 上 面 提 到 的 问题 : 


{or {73} 
Prepare to wait(&wq, & wait, TASK UNINTERRUPTIBLE); 
if (condition) = a 
break; 
schedule (); 


执行 完 prepare_to_wait 语 句 ， 本 来 是 要 检查 条 件 是 否 满足 的 ， 如 果 这 时 候 被 抢占 ， 假 如 没有 PREEMPT_ACTIVE 标 志 位 ， 那 么 
来 condition 条 件 满足 了 ， 那 就 错过 了 唤醒 的 机 会 ， 也 许 就 会 永远 休眠 了 。 了 


抢占 过 程 中 调用 的 _schedule 函 数 就 会 将 进程 从 运行 队列 中 移 除 。 如 果 本 


E 确 的 做 法 是 ， 继 续 保留 在 运行 队列 中 ， 后 面 还 有 机 会 被 调度 到 继续 运行 ， 恢 复 运 行 后 继续 判断 条 件 是 否 满足 。 


上 面 讨论 了 抢占 的 情况 ， 如 果 进 程 不 处 于 TASK_RUNNING 的 状态 ， 并 且 PREEMPT_ACTIVE 并 没有 置 位 ， 那 么 就 有 可 能 会 j 


调用 deactivate_task 函 数 将 其 从 运行 队列 中 移 除 。 这 里 说 可 能 是 因为 ， 该 进程 
可 能 存在 尚未 处 理 的 信和 号， 如果 是 这 种 情况 它 并 不 会 被 移 除 出 运行 队列 ， 相 反 会 被 再 次 设置 成 TASK_RUNNING 的 状态 ， 获 得 再 次 被 调度 到 的 机 


去 。 


_ schdule 函 数 的 基本 流程 如 图 5-9 所 示 。 流 程 图 中 带 有 背景 色 的 部 分 都 是 调度 框架 里 的 hook 点 。 内 核 的 进程 调度 是 模块 化 的 ， 实 现 一 个 新 的 调 
将 会 在 合适 的 时 机 调用 这 些 函 数 。 


度 算法 ， 只 需要 实现 一 组 框架 需要 的 钩子 函数 即 可 ， 内 核 


不 妨 以 deactivate task 为 例 ， 来 看 下 调度 框架 与 具体 调 
中 移 除 。 因 此 其 实现 为 : 


度 算法 中 的 函数 之 间 的 关系 。deactivate task 函 数 的 职责 可 以 顾名思义 ， 即 进程 不 再 处 了 


FTASK_RUNNING 的 状态 ， 需 要 将 其 从 对 应 的 运行 队列 


static void deactivate task(struct rq *rq, struct task struct *p, int flags) 


{ 
if (task contributes to load(p)) 
rq->nr_ uninterruptiblet+; 

dequeue _ task (rqg, p, flags); 

. 
static void dequeue task(struct rq *rq, struct task struct *p, int flags) 
{ 


update rq clock(rq); 
sched info dequeued (p); 


p->sched class->dequeue task (rg, p, flags); 
} 


内 核 会 调用 进程 所 属 调 度 类 的 dequeue_task 函 数 ， 至 于 调度 类 的 dequeue _task 函 数 


体 做 了 哪些 事情 ， 完 全 由 具体 的 调度 类 来 决定 。 


当前 CPU 的 运行 队列 为 空 


图 5-9 _ schedule 函数 的 基本 流程 


调用 schedule 函 数 时 ， 当 前 进程 可 能 仍然 处 于 可 运行 的 状态 (主动 让 出 CPU 或 被 其 他 进程 抢占 ) ， 因 此 选择 下 一 个 占用 CPU 的 进程 之 前 ， 需 要 调用 put_prev_ task 函数 。 该 函数 的 目的 是 ， 当 前 进程 被 
调度 出 去 之 前 ， 留 给 具体 调度 算法 一 个 时 机 来 更 新 内 部 的 状态 (如 图 5-9 所 示 ) 。 和 deactivate_task 函 数 一 样 ， 根 据 当前 进程 所 属 的 调度 类 ， 调 用 具体 的 put_prev_task 函 数 。 


static void put prev task(struct rq *rq, struct task struct *prev) 


if (prev->on rq || rq->skip clock update < 0) 
update rq clock(rq); 
prev->sched class->put prev task(rq, prev); 


Linux 内 核实 现 了 如 下 4 种 调度 类 : 
“stop_sched_class: 停止 类 
“rt_sched_class: 实时 类 
“fait_sched_class: 完全 公平 调度 类 
“idle_sched_class: 空闲 类 


这 4 种 调度 类 是 按照 优先 级 顺序 排列 的 ， 停 止 类 (stop_sched _class) 具有 最 高 的 调度 优先 级 ， 与 之 对 应 的 ， 空 闲 类 (idle_sched class) 具有 最 低 的 调度 优先 级 。 进 程 调度 器 挑选 下 一 个 执行 的 进程 
时 ， 会 首先 从 停止 类 中 挑选 进程 ， 如 果 停 止 类 中 没有 挑选 到 可 运行 的 进程 ， 再 从 实时 类 中 挑选 进程 ， 依 此 类 推 。 


pick_next task 函 数 负责 挑选 下 一 个 运行 的 进程 ， 从 其 实现 逻辑 中 可 以 看 出 ， 系 统 是 按照 优先 级 顺序 从 调度 类 中 挑选 进程 的 (如 图 5-10 所 示 ) 。 


static inline struct task struct * 
pick next task(struct rq *rq) 
' 
const struct sched class *class; 
struct task struct *p; 
/* 此 处 是 优化 ， 若 所 有 任务 都 属于 公平 类 ， 则 直接 从 公平 类 中 挑选 下 一 个 类 */ 


if (likely(rq->nr running 一 rq->cfs.h nr running)) { 
p= fair sched class.pick next task (rq); 
if (LikeIy(p)) 
return p; 


i 
/* 按 照 调度 类 的 优先 级 ， 从 高 到 低 挑选 下 一 个 进程 ， 直 到 挑选 到 为 止 */ 
for each class(class) 
P = class->pick next task (rq); 
if (p) 
return p; 


} 
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stop sched class 


图 5-10 ”进程 调度 类 优先 级 次 序 


优先 级 最 高 的 停止 类 进程 ， 主 要 用 于 多 个 CPU 之 间 的 负载 均衡 和 CPU 的 热 插 拔 ， 它 所 做 的 事情 就 是 停止 正在 运行 的 CPU， 以 进行 任务 的 迁移 或 播 拔 CPU。 优 先 级 最 低 的 空闲 类 ， 负 责 将 CPU 置 于 停机 状 
态 ， 直 到 有 中 断 将 其 唤醒 。idle_sched_ class 类 的 空闲 任务 只 有 在 没有 其 他 任务 的 时 候 才 能 被 执行 。 


每 一 个 CPU 只 有 一 个 停止 任务 和 一 个 空闲 任务 。 从 上 面 的 职责 描述 也 可 以 看 出 ， 这 两 种 调度 类 属于 诸 神 之 战 ， 和 应 用 层 的 关系 并 不 大 。 应 用 层 无 法 将 进程 设置 成 停止 类 进程 或 空闲 类 进程 。 


和 应 用 层 关系 比较 密切 的 两 种 调度 类 是 实时 类 和 完全 公平 调度 类 ， 尤 其 是 完全 公平 调度 类 。 


[1 参考 资料 见 : 刘 明 Linux 调 度 器 BFS 简 介 BFS vs CFS https://www.ibm.com/developerworks/cn/linux/l-cn-bfs/。 
[2] BFS 简 介 ，Linux 桌 面 的 极速 未 来 ? 


[3] BFS vs CFS - Scheduler Comparsion: http://cs.unm.edu/~eschulte/classes/cs587/data/bfs-v-cfs_groves-knockelschulte.pdf。 


5.3 ”普通 进程 的 优先 级 


本 节 将 停留 在 进程 调度 版 图 中 的 完全 公平 调度 类 (Completely Fair Scheduler， 简 称 CFS) 上 。 事 实 上 ， 除 非 将 Linux 用 在 特定 的 领域 ， 否 则 在 大 部 分 时 间 里 所 有 可 运行 的 进程 都 属于 完全 公平 调度 
类 。 从 内 核 代码 pick_next task 函数 (该 函数 负责 挑选 下 一 个 进程 放 到 CPU 上 执行 ) 中 所 做 的 优化 可 见 一 斑 。 


Linux 是 多 任务 系统 ， 在 存在 多 个 可 运行 进程 的 情况 下 ， 系 统 不 能 放任 当前 进程 始终 占 着 CPU。 每 个 进程 运行 多 长 时 间 ， 是 任何 一 个 调度 算法 都 不 能 回避 的 问题 。 传 统 的 调度 算法 面临 着 一 种 困境 ， 那 就 
是 时 间 片 到 底 多 大 才 合 适 ” 如 果 时 间 片 太 大， 进程 执 行 前 需要 等 待 的 时 间 就 会 变 长 ， 当 CPU 运行 队列 上 可 运行 进程 的 个 数 比 较 多 的 时 候 尤 为 明显 ， 用 户 可 能 会 感觉 到 明显 的 延迟 。 如 果 时 间 片 太 短 ， 进 程 调 
度 的 频率 就 会 增加 ， 考 虑 到 上 下 文 切换 也 需要 花费 时 间 ， 可 以 想见 ， 大 量 的 时 间 都 浪费 到 了 进程 调度 上 。 


完全 公平 调度 ， 使 用 了 一 种 动态 时 间 片 的 算法 。 它 给 每 个 进程 分 配 了 使 用 CPU 的 时 间 比 例 。 进 程 调度 设计 上 ， 有 一 个 很 重要 的 指标 是 调度 延迟 ， 即 保证 每 一 个 可 运行 的 进程 都 至 少 运行 一 次 的 时 间 间 
隔 。 比 如 调度 延迟 是 20 毫 秒 ， 如 果 运行 队列 上 只 有 2 个 同等 优先 级 的 进程 ， 那 么 可 以 允许 每 个 进程 执行 10 毫 秒 ， 如 果 运行 队列 上 是 4 个 同等 优先 级 的 进程 ， 那 么 ， 每 个 进程 可 以 运行 5 毫秒 。 


如 果 可 运行 的 进程 比较 少 ， 采 用 这 种 算法 则 没有 问题 。 可 是 如 果 运 行 队列 上 有 200 个 同等 优先 级 的 进程 怎么 办 ?每 个 进程 运行 0.1 毫 秒 》 这 可 不 是 个 好 主意 。 因 为 时 间 片 太 小 ， 进 程 调度 过 于 频繁 ， 上 下 
文 切换 的 开销 就 不 能 忽视 了 。 


为 了 应 对 这 种 情况 ， 完 全 公平 调度 提供 了 另 一 种 控制 方法 : 调度 最 小 粒度 。 调 度 最 小 粒度 指 的 是 任 一 进程 所 运行 的 时 间 长 度 的 基准 值 。 任 何 一 个 进程 ， 只 要 分 配 到 了 CPU 资源 ， 都 至 少 会 执行 调度 最 小 
粒度 的 时 间 ， 除 非 进程 在 执行 过 程 中 执行 了 阻塞 型 的 系统 调用 或 主动 让 出 CPU 资源 (通过 sched _ yield 调用) 。 


在 Linux 操 作 系统 中 ， 调 度 延 迟 被 称 为 sysctl_sched latency， 记 录 在 /proc/sys/kernel/sched latency_ns 中 ， 而 调度 最 小 粒度 被 称 为 sysctl_sched_min_granularity， 记 录 
在 /proc/sys/kernel/sched_min_granularity ns 中， 两 者 的 单位 都 是 纳 秒 。 


cat /proc/sys/kernel/sched latency ns 
12000000 I 

cat /proc/sys/kernel/sched min granularity ns 
1500000 SS 中 


调度 延迟 和 调度 最 小 粒度 综合 起 来 看 是 比较 有 意思 的 ， 它 反映 了 在 调度 延迟 内 人 允许 的 最 大 活动 进程 数目 。 这 个 值 被 称 为 sched_nr latency。 如 果 运 行 队列 上 可 运行 状态 的 进程 太 多 ， 超 出 了 该 值 ， 调 度 
最 小 粒度 和 调度 延迟 两 个 目标 则 不 可 能 被 同时 实现 。 


内 核 并 没有 提供 参数 来 指定 sched_nr_latency， 它 的 值 完全 是 由 调度 延迟 和 调度 最 小 粒度 来 决定 的 。 计 算 公式 如 下 : 
sysct]l sched latency 


sehed nr lateney = = 
人 Sysctl sched min granularity 


因此 调度 延迟 是 一 个 尽力 而 为 的 目标 。 当 可 运行 的 进程 个 数 小 于 sched_nr_latency 的 时 候 ， 调 度 周期 总 是 等 于 调度 延迟 (sysctl_sched_latency) 。 但 是 如 果 可 运行 的 进程 个 数 超过 了 
sched nr latency， 系 统 就 会 放弃 调度 延迟 的 承诺 ， 转 而 保证 调度 最 小 粒度 。 在 这 种 情况 下 调度 周期 等 于 最 小 粒度 乘 以 可 运行 进程 的 个 数 ， 代 码 如 下 所 示 : 


static u64 _ sched period(unsigned long nr running) 
{ 
u64 period = sysctl sched latency; 
unsigned long nr_latency = sched_nr latency;/* 进 程 个 数 过 多 ,无 法 保证 调度 延迟 ， 只 能 保证 调度 最 小 粒度 */ 
if (unlikely(nr running > nr latency)) { 
period = sysctl sched min granularity; 
Period *= nr_ running; 
} 


return period; 


上 述 函 数 并 不 难 理解 : 
“ 车 运行 队列 中 进程 个 数 小 于 或 等 于 sched_nr latency， 那 么 调度 周期 等 于 调度 延迟 。 
“ 车 运行 队列 中 进程 个 数 大 于 sched_nr latency， 那 么 调度 周期 则 等 于 可 运行 进程 个 数 与 调度 最 小 粒度 的 乘积 。 
有 了 调度 周期 ， 我 们 就 可 以 计算 ,分 配给 进程 的 运行 时 间 了 : 
分 配给 进程 的 运行 时 间 二 调度 周期 *1/ 运 行 队列 上 进程 个 数 
到 目前 为 止 ， 所 有 的 讨论 都 是 基于 运行 队列 上 所 有 的 进程 都 有 相同 的 优先 级 这 个 假设 。 但 真实 情况 并 非 如 此 ， 有 些 任务 优先 级 比较 高 ， 理 应 获得 更 多 的 运行 时 间 。 考 虑 到 这 种 情况 ， 完 全 公平 调度 又 引 
入 了 优先 级 的 概念 。 


完全 公平 调度 通过 引入 调度 权重 来 实现 优先 级 ， 进 程 之 间 按照 权重 的 比例 ， 分 配 CPU 时 间 。 引 入 权重 后 ， 调 度 周期 内 分 配给 进程 的 运行 时 间 的 计算 公式 如 下 : 


分 配给 进程 的 运行 时 间 二 调度 周期 * 进 程 权重 /运行 队列 所 有 进程 权重 之 和 


Linux 下 每 一 个 进程 都 有 一 个 nice 值 ， 该 值 的 取 值 范围 是 [-20，19]， 其 中 nice 值 越 高 ， 表 示 优 先 级 越 低 。 默 认 的 优先 级 是 0。 


全 注意 nice 的 英文 含义 是 友好 ，nice 值 越 高 ， 表 示 越 友好 ， 越 谦让 ， 即 优先 级 越 低 。 具 体 说 就 是 同等 情况 下 ， 占 有 的 CPU 资 源 越 少 。 


内 核定 义 了 一 个 数组 ， 来 表述 每 个 不 同 nice 值 对 应 的 权重 : 


static const int prio to weight[40] = { 


pH =20 3 88761, T71155, 56483, 46273, 36291, 
A- LS: 责 29154, 23254, 18705, 14949, 11916, 
i 9548, 7620, 6100, 4904, 3906, 
HB 才 3121; 2501, T1991; 1586, 1277, 
CG 才 1024, 820, 655, 526, 423, 
A Sf 335, 272, 215, 172, 137， 
a 110, 87, 70, 56， 45, 
六 后 间 36， 29， 23， 18, 15, 


这 个 数组 基本 是 通过 如 下 公式 来 获得 的 : 


weight = 1024 / (1.25 ^ nice value) 


其 中 普通 进程 的 nice 值 等 于 0， 其 权重 为 基准 的 1024。nice 值 为 0 的 进程 权重 被 称 为 NICE_0 LOAD。 当 nice 值 为 1 时 ， 权 重 等 于 1024/1.25， 约 等 于 820， 当 nice 值 为 2 时 ， 权 重 等 于 1024/ (1.25^2) 。 


四 ;说 很 有 意思 的 是 计算 公式 中 的 1.25 是 怎么 来 的 ? 一 般 的 概念 是 这 样 的 ， 进 程 每 降低 一 个 nice 值 ， 将 多 获得 10% 的 CPU 时 间 。 如 果 运 行 队列 里 有 两 个 进程 ， 一 个 nice 值 为 0， 另 一 个 nice 值 为 -1。 那 么 
按照 约定 ，nice 值 为 0 的 应 该 获得 45% 的 CPU 时 间 ， 而 nice 值 为 -1 的 应 该 获得 55% 的 CPU 时 间 。 那 么 两 者 的 权重 比例 应 该 是 多 少 ? 


1/ (1+x) 一 0.45 
根据 上 面 的 计算 公式 ， 很 容易 算出 ， 该 值 约 等 于 1.222 左 右 。 内 核 计算 时 ， 选 择 该 值 为 1.25。 具 体 可 阅读 prio_to_weight 定 义 出 的 注释 。 


Linux 提 供 了 如 下 函数 来 获取 和 修改 进程 的 nice 值 : 


#include <sys/time.h> 

#include <sys/resource.h> 

int getpriority(int which, int who); 

int setpriority(int which, int who, int prio); 


两 个 系统 调用 的 头 两 个 参数 都 是 which 和 who， 这 两 个 参数 用 于 标识 需要 读 取 和 修改 优先 级 的 进程 。who 参 数 如 何 解 释 ， 取 决 于 which 参 数 的 值 ， 具 体 如 下 : 


PRIO_PROCESS: 操作 进程 ID 为 who 的 进程 ， 如 果 who 为 0， 那 么 使 用 调用 者 的 进程 ID。 
“ PRIO_PGRP: 操作 进程 组 [DD 为 who 的 进程 组 的 所 有 成 员 。 如 果 who 等 于 0， 那 么 使 用 调用 者 的 进程 组 ID。 


“ PRIO_USER: 操作 所 有 真实 用 户 ID 为 who 的 进程 。 如 果 who 等 于 0， 使 用 调用 者 的 真实 用 户 ID。 


getpriority 函 数 返回 which 和 who 指 定 进程 的 nice 值 。 如 果 存 在 多 个 进程 符合 指定 的 标准 ， 那 么 返回 优先 级 最 高 的 那个 nice 值 〈( 即 nice 值 最 小 的 那个 ) 。 


因为 进程 优先 级 的 范围 为 [-20，19]， 所 以 成 功 的 时 候 ， 返 回 值 也 可 能 是 -1。 因 此 ， 不 能 用 返回 值 是 不 是 -1 来 判断 调用 是 成 功 还 是 失败 。 正 确 的 方法 是 ， 调 用 前 将 errno 设 置 成 0， 然 后 调用 getpriority 函 
数 。 如 果 返 回 值 是 -1， 并 且 errno 不 是 0， 才 能 确定 调用 失败 。 否 则 ， 调 用 成 功 。 


errno = 0; 
prio = getpriority (which,who); 
if(prio == -1 && errno != 0) 
{ 
/*error handle*/ 


} 


setpriority 函 数 的 返回 值 并 不 存在 getpriority 函 数 的 困境 。 其 成 功 时 返回 0， 失 败 时 返回 -1， 并 置 errno。 常 见 的 errno 见 表 5-3。 


表 5-3 setptiority 函 数 的 出 错 情况 及 说 明 


errno 说 明 


EACCESS 尝试 获取 更 高 的 优先 级 (更 低 的 prio 值 )， 但 是 没有 CAP_ SYS_NICE 权限 


EINVAL which 的 值 不 是 PRIO PROCESS、PRIO PGRP 或 PRIO USER 
ESRCH which 和 who 指定 的 进程 不 存在 


i 指定 进程 的 有 效用 户 ID 和 调用 进程 的 有 效用 户 ID 不 一 致 ， 且 调用 进程 没有 CAP_ SYS_NICE 
1 


权限 


对 于 其 中 的 EACCESS 错 误 码 ， 这 里 仔细 说 明 一 下 。 在 早期 版 本 的 Linux 中 非特 权 进程 不 能 提升 优先 级 ， 只 能 降低 优先 级 。 但 在 现在 的 Linux 中 ， 非 特权 进程 也 能 适当 地 提升 进程 的 优先 级 了 。Linux 提 供 
了 RLIMIT_NICE 资 源 限制 。 如 果 一 个 进程 的 RLIMIT_NICE 限 制 为 25， 那 么 其 nice 值 可 以 提升 到 20-25 = -5。 详 情 可 以 查看 getrlimit 函 数 的 手册 。 


调整 进程 的 优先 级 会 有 什么 影响 ? 完全 公平 调度 算法 里 ， 优 先 级 比较 高 (nice 值 比较 低 ) 的 进程 会 获得 更 多 的 CPU 时 间 。 


比如 ， 有 两 个 进程 位 于 CPU 的 运行 队列 上 ， 一 个 nice 值 是 0 (权重 是 1024) ， 另 外 一 个 nice 值 是 5 (权重 是 335) ， 按 照 前 面 的 权重 可 以 推算 出 ，nice 值 为 0 的 进程 获得 CPU 的 时 间 应 该 是 nice 值 为 5 的 3 


可 以 通过 一 个 简单 的 测试 来 验证 这 个 结论 : 


#define _GNU_SOURCE 
#include <stdio.h> 
#include <stdlib.h> 
#include <math.h> 
#include <unistd.h> 
#include <sched.h> 
#include <string.h> 
#include <errno.h> 
#include <sys/time.h> 
#include <sys/resource.h> 
#include <sched.h> 
int heavy_work() 
{ 
double sum = 0.0; 
unsigned long long i = 0; 
while (1) 
{ 
Sum = Sum + sin(i++); 
} 


return 0; 
int main(int argc,char* argv[]) 


cpu set t set; 
CPU ZERO(&set); 
CPU_SET (0, &set); 
int ret = sched setaffinity (0,sizeof (cpu set t),&set); 
if(ret !=0) 一 i 
{ 
fprintf (stderr, "failed to bind the process to cpu 0 (%s)\n", 
strerror (errno)); 
exit (1); 
§ 
ret = fork(); 
if(ret 一 0) 
errno = 07 
ret = setpriority (PRIO PROCESS, 0,5); 
if(ret == -1 && errno != 0) 
{ 
fprintf (stderr,"[%d] failed to change nice value (%s)\n", 
getpid(), strerror (errno)); 
exit (1); 
} 
} 
heavy work(); 
return 0; 


上 面 的 程序 设置 了 进程 的 CPU 亲和力 ， 父 子 进 程 都 将 运行 在 CPU 0 上 ， 不 过 ， 子 进程 首先 调用 setpriority 函 数 将 自己 的 nice 值 设置 成 了 5， 而 父 进程 的 nice 值 是 默认 值 0。 父 子 进程 都 是 CPU bound 型 的 
程序 ， 始 终 处 于 可 运行 状态 。 


manu@manu-rush:~$ ps -C nice test -0o pid,ppid, cmd,etime,nice,pri,psr 


PID PPID CMD ELAPSED NI PRI PSR 
3885 2695 ./nice test 35:02 0 19 0 
3886 3885 ./nice test 35;02 5 14 0 


通过 NI 这 一 列 可 以 看 出 ， 父 进程 的 nice 值 是 0， 而 子 进程 的 nice 值 是 5。 父 进程 占用 的 CPU 时 间 应 该 是 子 进程 的 三 倍 左右 。 通 过 /proc/PID/sched 可 以 查看 这 些 调 度 的 信息 ， 其 中 se_sum_exec_runtime 
的 含义 是 累计 运行 的 物理 时 间 。 


父 进程 
se.sum exec runtime : 1584276.837760 子 进程 
se.sum exec runtime : 518296.243156 


那么 我 们 比较 一 下 : 
1024 二 335 一 3.0567 


15842706.837760 一 518296.243156 一 3.0567 


从 执行 时 间 上 可 以 看 出 ， 执 行 时 间 几乎 完美 地 符合 权重 比 。 原 因 就 是 决定 每 个 进程 运行 时 间 片 的 时 候 ， 是 根据 权重 来 计算 的 。 


有 意思 的 是 ， 如 果 CPU 运 行 队列 上 的 两 个 进程 的 nice 值 分 别 是 10 和 15， 那 么 两 者 占用 的 CPU 时 间 的 比例 依然 约 等 于 3: 1。 原 因 是 绝对 的 nice 值 并 不 影响 调度 决策 ， 而 是 运行 队列 上 进程 间 的 优先 级 相对 
值 ， 影 响 了 CPU 时 间 的 分 配 。 


5.4 “完全 公平 调度 的 实现 


上 一 节 的 全 部 内 容 ， 归 纳 起 来 就 是 下 面 这 个 公式 : 


分 配给 进程 的 运行 时 间 王 调度 周期 * 进 程 权重 /所 有 进程 权重 之 和 


但 是 上 一 节 并 没有 介绍 完全 公平 调度 的 算法 实现 ， 本 节 将 尝试 介绍 完全 公平 调度 的 内 容 。 完 全 公平 调度 的 算法 思想 比较 简单 ， 按 照 CFS 作 者 Ingo Molnar 的 总 结 : CFS 百 分 之 八 十 的 工作 可 以 用 一 句 话 来 
概括 ， 那 就 是 CFS 在 真实 的 硬件 上 模拟 了 完全 理想 的 多 任务 处 理 器 。 


5.5 ”普通 进程 的 组 调度 


完全 公平 调度 算法 会 尽力 在 进程 之 间 保 证 公平 。 如 果 有 50 个 优先 级 相同 的 进程 ，CFS 会 努力 让 每 个 进程 获得 的 CPU 时 间 为 2%， 以 确保 公平 。 


可 是 考虑 一 下 如 图 5-20 所 示 的 场景 。 


表面 看 每 个 进程 都 被 进程 调度 器 公平 对 待 了 ， 即 4 个 进程 每 个 都 获得 了 25% 的 CPU 时 间 。 但 是 其 中 的 用 户 B 并 没有 得 到 公平 的 对 待 。 我 们 将 情况 考虑 得 再 极端 一 点 : 系统 上 存在 50 个 进程 ， 其 中 49 个 都 属 
于 用 户 A， 而 用 户 B 只 有 1 个 进程 。 那 么 对 于 用 户 B 而 言 ， 它 只 能 使 用 2% 的 CPU 资源 ， 这 显然 是 不 公平 的 。 


比较 合理 的 做 法 是 ， 首 先 确保 组 间 的 公平 ， 然 后 才 是 组 内 进程 之 间 的 公平 ， 如 图 5-21 所 示 。 


用 户 A 用 户 B 


25% 25% 25% 25% 


CPU 资 源 


图 5-20 ”没有 组 调度 时 的 表面 公平 


16.7% 


Linux 内 核实 现 了 cgroups (control groups 的 缩写 ) 功能 ,该 功能 用 来 限制 、 记 录 和 隔离 一 个 进程 组 群 所 使 用 
一 系列 子 系统 ， 本 节 将 要 介绍 的 cpu 和 后 面 CPU 亲和力 一 节 介绍 的 cpuset 都 


group) 及 按 组 来 分 配 CPU 资源 。 


首先 需要 挂 载 和 安装 cgroup 文 件 系统 ， 挂 载 时 需要 启 


用 户 A 
Groupl 
350% 


进程 2 


16.7% 


CPU 资 源 


CPU 资源 控制 : 


16.7% 


图 5-21 引入 组 调度 后 


属于 cgroups 的 子 系统 。cpu 子 系统 只 上 


用 户 B 
Group2 
530% 


进程 4 


350% 


的 物理 资源 (如 CPU、 内 存 、 磁 盘 IO、 网 络 等 ) 。 为 了 管理 不 同 的 资源 ，cgroups 提 供 了 
于 限制 进程 的 CPU 使 用 率 。 接 下 来 介绍 如 何 使 用 cgroups 的 cpu 子 系统 来 创建 组 (task 


mount -t cgroup -Oo cpu none /cgroup/cpu/ 


在 /cgroup/cpu 目 录 下 创建 两 个 目录 : GroupA 和 GroupB， 这 样 就 会 创建 两 个 进程 组 群 。 


mkdir /cgroup/cpu/GroupA 
mkdir /cgroup/cpu/GroupB 


目录 创建 完毕 后 ， 可 以 看 到 /cgroup/cpu/GroupA 和 /cgroup/cpu/GroupB 目 录 下 都 已 经 存在 了 很 多 文件 ， 如 


root@manu-rush:/cgroup/cpu/GroupA# 1LL 


-TW-Tr--T-- 
-rw-Tr--r-- 


| 


1 
root@manu-rush:/cgroup/cpu/GroupA# 国 


root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
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图 5-22 task group 下 的 配置 文件 
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图 5-22 所 示 。 


sf/ 

cgroup.clone children 
cgroup.event control 
cgroup.procs 

cpu.cfs period us 
cpu.cfs quota us 
cpu.shares 

cpu.stat 
notify on release 
tasks 


只 需要 向 GroupA 的 tasks 文 件 中 写 入 进程 ID， 该 进程 就 成 为 了 GroupA 的 成 员 ， 当 该 进程 创建 子 进程 时 ， 子 进程 也 会 自动 成 为 GroupA 中 的 成 员 。 下 面 进行 一 个 简单 的 实验 ， 使 用 cgroups 的 cpu 子 系统 


来 实现 分 组 之 间 公 平地 使 用 CPU 资源 。 


首先 打开 一 个 终端 ， 将 shell 进 程 的 PID 写 入 GroupA 的 tasks 文 件 中 ， 在 该 终端 上 通过 stress 命 令 ， 唤 起 4 个 进程 执行 死 循 环 ， 消 耗 CPU 资源 。 


echo $$ > /cgroup/cpu/GroupA/tasks 
stress -CC 4 


此 时 可 以 看 到 ，/cgroup/cpu/GroupAVtasks 中 ， 已 经 存在 多 个 进程 ， 它 们 是 bash 进 程 和 stress 进 程 。 其 中 stress 进 程 有 5 个 : 1 个 几乎 不 消耗 CPU 资源 的 管理 进程 和 4 个 消耗 大 量 CPU 资源 的 死 循 环 进 
程 。 因 为 该 shell 中 除了 stress 之 外 ， 并 无 需要 消耗 CPU 的 其 他 进程 ， 所 以 4 个 stress 进 程 消耗 了 几乎 所 有 它 能 使 用 的 CPU 资源 。 


同时 在 另 一 个 终端 上 ， 将 shell 进 程 的 PID 写 入 GroupB， 同 时 通过 stress 命 令 ， 唤 起 两 个 进程 执行 死 循 环 消耗 CPU 资源 ， 方 法 如 下 : 


echo $$ > /cgroup/cpu/GroupB/tasks 
stress -CG 2 


通过 ps 命令 查看 stress 相 关 进 程 消耗 CPU 的 情况 ， 如 图 5-23 所 示 。 


root@manu-rush:~# ps -C stress -0 pid,cgroup,%cpu,cmd 
PID CGRQUP %CPU CMD 
2917 :Cpu:/GroupB 0.0 stress 
2918 :Cpu:/GroupB 50.5 stress 
2919 :Cpu:/GroupB 50.1 stress 
2920 :CDU:VGroupA 0.0 stress 


2921 :Cpu:/Grouph 24.3 stress 

2922 :Cpu:/Grouph 24.5 stress 

2923 :CDU:VGroupA 24.6 stress 

2924 :Cpu:/Grouph 24.4 stress 
root@manu-rush:~# 国 


太太 太太 ONN 


5-23 ”GroupA 和 GroupB 下 进程 的 CPU 使 用 情况 〈1) 


可 以 看 到 一 共有 6 个 消耗 CPU 的 stress 进 程 ， 共 有 2 个 CPU 核 。 平 均 来 说 ， 每 个 stress 进 程 的 使 用 率 应 该 在 33% 左 右 ， 但 是 事实 并 非 如 此 ，GroupB 的 2 个 进程 共 消 耗 了 约 100% 的 CPU 资源 ， 同 时 GroupA 
的 4 个 进程 共 消耗 了 约 100% 的 CPU 资源 。 真 正 做 到 了 兼顾 组 间 公 平和 组 内 公平 。 


在 完全 公平 调度 域内 ， 进 程 有 优先 级 ， 高 优先 级 的 进程 享有 更 多 的 CPU 时 间 。 能 否 让 组 与 组 之 间 也 存在 优先 级 差异 ， 比 如 GroupB 占 用 的 CPU 时 间 是 GroupA 的 2 倍 ? 


答案 是 肯定 的 。 每 一 个 组 内 都 有 cpu.shares 文 件 ，cpu.shares 的 值 默 认 是 1024， 和 普通 进程 默认 优先 级 对 应 的 权重 (NICE_0 LOAD) 是 一 样 的 。 这 说 明 进 程 调度 会 将 整个 组 看 成 是 1 个 普通 进程 来 分 配 
CPU 资源 。 


下 面 调整 GroupB 的 cpu.shares 的 值 ， 将 其 调整 为 2048 (GroupA cpu.shares 值 的 两 倍 ) ， 然 后 重复 上 面 的 实验 ， 结 果 如 图 5-24 所 示 。 


可 以 看 出 GroupB 中 的 两 个 死 循 环 消耗 了 1339% 的 CPU， 而 GroupA 中 的 4 个 死 循 环 只 消耗 了 669% 左 右 的 CPU， 两 者 的 比例 约 等 于 2 : 1， 符 合 cpu.shares 中 的 比例 。 


@@ 济 cpu.shares 的 上 默认 值 是 1024， 此 时 系统 将 整个 组 内 的 所 有 进程 视 为 一 个 普通 进程 。 如 果 系 统 内 存在 大 量 CPU 消 耗 型 普通 进程 ， 它 们 不 在 任何 组 内 ,而 组 内 的 进程 数 又 很 多 ,那么 组 内 的 进程 其 实 
处 于 被 损害 的 地 位 。 此 时 需要 妥善 调整 cpu.shares 的 值 。 


root@manu-rush:~# ps -C stress -0 pid,cgroup,%cpu,cmd 
PID CGROUP %CPU CMD 
3631 :Cpu:/GroupA 0.0 stress -c 
3632 :CDU:VGroupA 16.6 stress 
3633 :CPU:VGroupA 16.6 stress 
3634 :Cpu:/GroupA .6 stress 
3635 :Cpu:/GroupA .6 stress 
3636 TAN .0 stress 
3637 :Cpu:/GroupB .3 stress 
3638 A .4 Stress 

rootGmanu -rush :~ 六 国 


4 
4 
4 
4 
4 
2 
2 
2 


5-24 ”GroupA 和 GroupB 下 进程 的 CPU 使 用 情况 (2) 


对 于 普通 进程 来 说 ， 完 全 公平 调度 已 经 能 够 提供 足够 好 的 性 能 和 响应 体验 了 。 但 是 某 些 进程 对 实时 性 的 要 求 更 高 。 严 格 说 来 实时 系统 可 以 分 成 两 类 : 硬 实时 进程 和 软 实时 进程 。 


硬 实时 进程 对 响应 时 间 的 要 求 非常 严格 ， 必 须 保 证 在 一 定 的 时 间 内 完成 ， 超 过 时 间 限 制 就 会 失败 ， 而 且 后 果 非 常 严 重 。 这 类 应 用 典型 的 例子 有 军用 武器 系统 、 航 空 航天 系统 、 交 通 导 航 系统 、 医 疗 设备 


等 。 硬 实时 的 关键 特征 是 任务 必须 在 可 保证 的 时 间 范 围 内 得 到 处 理 。 当 然 这 并 不 意味 所 要 求 的 时 间 范 围 特别 短 ， 而 是 系统 必须 保证 绝 不 会 超过 某 一 时 间 范 围 ， 无 论 当 时 系统 的 负载 如 何 。 主 流 内 核 的 Linux 并 
不 支持 硬 实时 进程 ， 当 然 有 些 修改 版 本 提供 了 该 特性 。 


软 实时 进程 是 硬 实时 的 一 种 弱化 形式 。 尽 管 软 实时 进程 仍然 需要 快速 响应 和 要 在 规定 的 时 间 内 完成 ， 但 是 超过 了 时 间 的 范围 也 不 会 有 什么 灾难 性 的 后 果 。 比 较 典型 的 例子 是 视频 处 理应 用 ， 如 果 超 过 了 
操作 时 限 ， 则 会 影响 用 户 体验 ， 但 是 少量 的 丢 帧 还 是 可 以 忍受 的 。 


5.7 ”CPU 的 亲和力 


在 对 称 多 处 理 器 (SMP) 环境 中 ， 一 个 进程 被 重新 调度 时 ， 不 一 定 是 在 上 次 执行 的 CPU 上 运行 。 


同一 个 进程 在 不 同 CPU 之 间 迁 移 会 带 来 性 能 的 损失 ， 损 失 的 主要 原因 在 于 缓存 。 在 进程 迁移 到 新 的 处 理 器 上 后 写 入 新 数据 到 内 存 时 ， 原 有 处 理 器 的 缓存 就 过 期 了 。 当 进程 在 不 同 处 理 器 之 间 迁 移 时 ， 会 
带 来 两 方面 的 性 能 损失 : 


“ 进程 不 能 访问 老 的 缓存 数据 ; 
: 原 处 理 器 中 缓存 中 的 数据 必须 标记 为 无 效 。 


由 于 迁移 会 带 来 性 能 损失 ， 因 此 进程 调度 器 趋 于 把 进程 固定 在 一 个 处 理 器 上 执行 。 


如 何 查看 进程 当前 运行 在 哪个 CPU 上 ”可 以 通过 ps 命令 的 PSR 字 段 来 查看 进程 当前 执行 或 上 一 次 执行 时 所 在 的 CPU 编号 。 因 为 进程 调度 并 不 保证 进程 总 是 固定 在 某 个 CPU 上 ， 所 以 多 次 查看 进程 的 
PSR， 其 值 可 能 会 发 生变 化 。 


root@manu-rush:~# ps -p 7214 -o pid,cmd,psr 
PID CMD PSR 
7214 sleep 1000 0 


有 时 候 需要 把 进程 绑 定 到 某 个 或 某 几 个 CPU 上 运行 。 这 就 需要 设置 进程 的 CPU 硬 亲和力 了 。Linux 提 供 了 非 标准 的 系统 调用 来 获取 和 修改 进程 的 硬 亲和力 : 即 sched_setaffinity 函 数 和 sched_getaffinity 


sched setaffinity 函 数 用 来 设置 pid 指 定 进程 的 CPU 亲和力 ， 如 果 pid 的 值 为 0， 那 么 该 函数 用 来 修改 调用 进程 的 CPU 亲和力 。 函数 接口 定义 如 下 : 


#define _GNU_SOURCE 

#include <sched.h> 

int sched setaffinity (pid t pid, size t cpusetsize, 
cpu set t *mask); 


Ccpu_set t 数 据 结构 是 位 掩 码 ， 但 是 不 应 该 直接 操作 cpu_set_t 类 型 的 变量 。Linux 提 供 了 一 组 宏 来 操作 cpu_set_t 类 型 的 变量 : 


/* 将 set 初 始 化 为 空 */ 

void CPU ZERO(cpu set 七 *set); 
/* 将 cpu 指 定 的 CPU 添 了 各 到 set 中 */ 

void CPU SET(int cpu, cpu set t *set); 
/* 从 set 中 删除 CPU cpu*/ 0 

void CPU CLR(int cpu, cpu set t *set); 
/* 判 断 CPU cpu 是 否 set 中 的 成 员 */ 

int CPU ISSET(int cpu, cpu set t *set); 


CPU 集合 中 的 编号 从 0 开始 。 一 般 在 调用 CPU_XXX 系 列 函 数 之 前 ， 需 要 对 系统 中 的 CPU 核 数 了 然 于 胸 ， 才 能 有 的 放 矢 。 指 定 cpu 的 值 比 系统 中 的 最 大 CPU 编号 还 大 是 没有 意义 的 。nproc 命 令 和 lscpu 命 
令 都 可 以 获取 系统 的 CPU 核 数 ， 代 码 如 下 : 


manu@manu-rush:~$ nproc 


manu@manu-rush:~$ lscpu 


Architecture: X86 64 

CPU op-mode (s) : 32-bit, 64-bit 
Byte Order: Little Endian 
CPU(s) : 2 


On-line CPU(s) list: 六; 生 


通过 proc 文 件 系统 的 /proc/cpuinfo 也 可 以 获取 CPU 的 核 数 。 


可 以 通过 下 面 的 代码 将 某 进 程 迁移 到 CPU 1 上 : 


cpu set t set; 

/* 必 须 首先 调用 CPU_ZERO 清 空 ， 不 可 想当然 地 认为 是 空 */ 
CPU_ ZERO (&set) 7 

CPU SET(1,&set); 

sched setaffinity (pid, sizeof (cpu set t), &set); 


Linux 提 供 了 sched_getaffinity 接 口 来 查看 进程 的 CPU 亲和力 : 


cpu set t set; 

/* 必 须 首先 调用 CPU_ZERO 清 空 ， 不 可 想当然 地 认为 是 空 */ 
CPU_ZPERO (&set); 

CPU SET(1, &set); 

sched setaffinity (pid, sizeof (cpu set t),&set); 


调用 sched getaffinity 之 前 ， 需 要 先 调 


CPU_ZERO 将 set 清 空 。 函 数 调 用 成 功 时 ， 会 将 结果 记录 在 set 中 ， 但 是 不 要 直接 操作 set 来 判断 哪些 CPU 在 集合 中 ， 而 是 应 该 用 CPU_ISSET 来 判断 。 


内 核 如 何 保证 进程 只 会 在 某 些 CPU 上 执行 ?9 内核 中 的 进程 对 应 的 进程 描述 符 中 有 个 cpumask _t 类 型 的 成 员 变 量 cpus_allowed， 该 成 员 变 量 会 记 住 进程 允许 的 CPU。 内 核 在 调度 的 时 候 会 通过 
select task_rq 来 选择 CPU， 只 会 选择 出 允许 的 CPU。 


static inline 
int select task rq(struct task struct *p, int sd flags, int wake flags) 
{ 
int cpu = p->sched class->select task rql(p, sd flags, wake flags); 
if (unlikely(!cpumask test cpul(cpu, tsk cpus allowed(p)) | 
!cpu online (cpu))) 
cpu = select fallback rq(task cpu(p), p); 


return cpu; 


} 


来 实现 各 个 CPU 之 间 的 负载 均衡 。 


有 个 很 有 意思 的 话题 是 内 核 调 用 select_task_rq 的 时 机 : 当 新 的 进程 创建 出 来 时 ， 当 进程 调用 exec 时 ， 当 进程 从 睡眠 中 醒 来 时 ， 都 是 调用 select_task_rq 的 好 时 机 (如 图 5-26 所 示 ) ， 可 以 通过 这 些 时 机 


除了 编程 接口 可 以 获取 和 修改 进程 的 亲和力 以 外 ，Linux 的 util-linux 包 中 还 提供 了 tasket 工 具 以 命令 行 的 方式 做 同样 的 事情 。 它 查询 进程 的 CPU 亲和力 的 方法 如 下 : 


manu@manu-rush:~$ taskset -p 1 
pid 1's current affinity mask: 3 


用 户 层 


内 核 层 


wake up new task try to wake up 


SD BALANCE FORK SD BALANCE EXEC SD BALANCE WAKE 


SECCEmG Se 


图 5-26 ”调用 select_task_rq 的 时 机 


进程 1 的 mask 为 3=0x11， 即 允许 在 CPU 0 和 CPU 1 上 运行 。 


修改 进程 的 CPU 亲和力 的 方法 如 下 : 


/* 允 许 进程 700 运 行 在 CPUO0, CPU3, CPU7,CPU8, CPU9, CPU10, CPU11 上 */ 
taskset -pc 0,3,7-11 700 

manu@manu-rush:~$ sudo taskset -pc 1 2000 

Pid 2000's current affinity list: 0,1 

pid 2000's new affinity list: 1 


除了 tasket 工 具 外 ，cpuset 也 可 以 用 来 设 定 CPU 亲 和 力 。cpuset 是 Linux 控 制 组 (control groups) 中 的 一 个 子 系统 ， 该 子 系统 的 用 途 是 管理 进程 可 以 使 用 的 CPU 核心 和 内 存 节点 。 使 用 cpuset 之 前 ， 


首先 要 确认 内 核 是 否 已 经 提供 了 对 cpuset 功 能 的 支持 : 


root@manu-rush: /boot# grep "CONFIG CPUSETS" config-3.13.0-32-generic 
CONFIG CPUSETS=y 


Linux 将 cgroups 实 现成 了 文件 系统 。 在 较 新 的 Linux 发 行 版 本 中 (如 Ubuntu 14.04) ， 系 统 已 经 挂 载 了 所 有 的 cgroup 子 系统 ， 通 过 mount-t cgroup 命 令 来 查看 。 如 果 操 作 系 统 并 没有 挂 载 cpuset 子 系 


， 那 么 可 以 通过 如 下 命令 手工 挂 载 : 


mkdir /dev/cpuset 
mount -t cgroup -o cpuset none /dev/cpuset 


执行 完 挂 载 后 ， 通 过 mount 命 令 可 以 看 到 一 个 新 的 cpuset 类 型 的 文件 系统 挂 载 到 了 /dev/cpuset 目 录 下 : 


none on /dev/cpuset type cgroup (rw,cpuset) 


我 们 可 以 创建 一 个 新 的 CPU 分 配 组 ， 比 如 GroupA， 方 法 很 简单 ， 就 是 在 /cgroup 下 创建 一 个 目录 ， 方 法 如 下 : 


mkdir /dev/cpuset/GroupA 


在 cpuset 中 设置 了 新 的 群 组 之 后 ， 该 群 组 的 目录 下 有 很 多 的 文件 ， 对 应 不 同 的 配置 项 ， 如 图 5-27 所 示 。 大 部 分 配置 项 都 是 可 选 的 ,但 cpuset.cpus 和 cpuset.mems 这 两 项 分 别 用 来 指定 群 组 允许 使 用 的 


CPU 核 心 和 内 存 节 点 ， 是 强制 配置 项 ， 必 须要 指定 。 


root@manu-rush:/dev/cpuset/GroupA# 1LL 


total 0 

drwxr-Xr-X 
drwxr-Xr-X 
-rw-Tr--r-- 
--W--W--W- 
-TW-r--r-- 
-TW-r--r-- 
-rwW-Tr--Tr-- 
-rw-Tr--Tr-- 
-rw-r--r-- 
-rw-r--Tr-- 
-Fr--r--Tr-- 
-TW-r--r-- 
-TW-rT--r-- 
-rw-T--Tr-- 
-rw-r--r-- 
-rw-r--Tr-- 
-rw-r--『F-- 
-rw-Tr--r-- 1 


PE WN 


Jan 24023:505008/ 

Jan 24 2354 7 

Jan 24 23:55 cgroup.clone children 

Jan 24 23:55 cgroup.event control 

Jan 24 23:55 cgroup.procs 

Jan 24 23:55 cpuset.cpu exclusive 

Jan 24 23:55 cpuset.cpus 

Jan 24 23:55 cpuset .mem exclusive 

Jan 24 23:55 cpuset .mem hardwall 

Jan 24 23:55 cpuset.memory migrate 

Jan 24 23:55 cpuset .memory pressure 
Jan 24 23:55 cpuset.memory spread page 
Jan 24 23:55 cpuset .memory spread slab 
Jan 24 23:55 cpuset .mems 

Jan 24 23:55 cpuset.sched Load balance 
Jan 24 23:55 cpuset.sched relax domain level 
Jan 24 23:55 notify on release 

Jan 24 23:55 tasks 


root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 
root root 


OOOOOOOOOOOOOOOOOOO 


rootGmanu- rush:/dev/cpuset/GroupA# 国 


图 5-27 cpuset 子 系统 下 task group 的 配置 文件 


下 面 我 们 通过 如 下 语句 将 GroupA 中 所 有 的 进程 限制 在 CPU 1 上 : 


echo "1" > /dev/cpuset/GroupA/cpuset.cpus 
echo "0" > /dev/cpuset/GroupA/cpuset .mems 


设置 好 GroupA 人 允许 使 用 的 CPU 后 ， 就 可 以 将 某 些 进程 放 入 GroupA 中 了 ， 按 照 设 定 ， 这 些 进程 只 会 使 用 CPU 1。 比 如 将 shell 本 身 的 PID 归 于 GroupA， 这 样 在 该 shell 上 启动 的 所 有 进程 都 会 归于 这 个 


GroupA 下 : 


echo $$ > /dev/cpuset/GroupA/tasks 


在 该 shell 上 通过 stress-c 4 命令 ， 启 动 4 个 进程 执行 死 循环 ， 消 耗 大 量 的 CPU 资源 ， 通 过 ps 命令 可 以 看 到 ， 这 4 个 进程 总 是 运行 在 CPU 1 上 ， 如 图 5-28 所 示 。 


manuGmanu- rush:~$ ps -C stress -0 pid,psr,cmd,etime,cgroup,%cpu 


PID PSR CMD 


ELAPSED CGRDUP 


3795 stress 01:25 2:cpuset:/GroupA 
3796 stress 01:25 :cpuset:/GroupA 
3797 stress 01:25 :cpuset:/GroupA 
3798 stress 01:25 :cpuset:/GroupA 
3799 stress Bla25 :cpuset:/GroupA 


manu@manu- rush : 


-$ | | 


5-28 ”通过 cpuset 绑 定 到 CPU 1 上 运行 的 进程 ps 的 输出 


信号 是 一 种 软件 中 断 ， 用 来 处 理 异步 事件 。 内 核 递送 这 些 异 步 事件 到 某 个 进程 ， 告 诉 进程 某 个 特殊 事件 发 生 了 。 这 些 异步 事件 ， 可 能 来 自 硬 件 ， 比 如 访问 了 非法 的 内 存 地 址 ,或 者 除 以 0 了 ; 可 能 来 自 


户 的 输入 ， 比 如 shell 终 端 上 用 户 在 键盘 上 敲 击 了 Ctrl+C; 还 可 能 来 自 另 一 个 进程 ， 甚 至 有 些 来 自 进 程 自身 。 


信号 的 本 质 是 一 种 进程 间 的 通信 ， 一 个 进程 向 另 一 个 进程 发 送信 号 ， 内 核 至 少 传递 了 信号 值 这 个 字段 。 实 际 上 ， 通 信 的 内 容 不 止 是 信号 值 。 


信号 机 制 是 Unix 家 族 里 一 个 古老 的 通信 机 制 。 传 统 的 信号 机 制 有 一 些 浆 端 ， 更 为 严重 的 是 ， 信 号 处 理 函 数 的 执行 流 和 正常 的 执行 流 同 时 存在 ， 给 编程 带 来 了 很 多 的 麻烦 和 困扰 ， 一 不 小 心 就 可 能 掉 入 陷 
阱 。 本 章 将 会 介绍 信号 的 方方面面 ， 包 括 传统 信号 的 浆 端 ，Linux 对 信号 机 制 的 改进 ， 以 及 信号 机 制 里 面 的 陷阱 ， 希 望 对 读者 能 有 所 帮助 。 


前 文 提 到 过 ， 信 号 的 本 质 是 一 种 进程 间 的 通信 。 进 程 之 间 约 定好 : 如 果 发 生 了 某 件 事情 T (trigger) ， 就 向 目标 进程 (destination process) 发 送 某 特定 信号 X， 而 目标 进程 看 到 X， 就 意识 到 T 事 件 发 


生 了 ， 目 标 进程 就 会 执行 相应 的 动作 A (action) 。 


接 下 来 以 配置 文件 改变 为 例 ， 来 描述 整个 过 程 。 很 多 应 用 都 有 配置 文件 ， 如 果 配 置 文件 发 生 改 变 ， 需 要 通知 进程 重新 加 载 配置 。 一 般 而 言 ， 程 序 会 默认 采 


文件 。 


SIGHUP 信 号 来 通知 目标 进程 重新 加 载 配置 


目标 进程 首先 约定 ， 只 要 收 到 SIGHUP， 就 执行 重新 加 载 配置 文件 的 动作 。 这 个 行为 称 为 信号 的 安装 (installation) ， 或 者 信号 处 理 函 数 的 注册 。 安 装 好 了 之 后 ， 因 为 信号 是 异步 事件 ， 不 知道 何 时 会 


发 生 ， 所 以 目标 进程 依然 正常 地 干 自 己 的 事情 。 某 年 某 月 的 某 一 天 ， 管 理 员 突然 改变 了 配置 文件 ， 想 通知 这 个 目标 进程 ， 于 是 就 向 目标 进程 发 送 了 信号 。 他 可 能 在 终端 执行 了 kill-SIGHUP 命 令 ， 也 可 能 调 有 


了 (5 的 AP1， 不 管 怎样 ， 信 号 产生 了 。 这 时 候 ，Linux 内 核 收 到 了 产生 的 信号 ， 然 后 就 在 


标 进程 的 进程 描述 符 里 记录 了 一 笔 : 收 到 信号 SIGHUP 一 枚 。Linux 内 核 会 在 适当 的 时 机 ， 将 信号 递送 (deliver) 给 


进程 。 在 内 核 收 到 信号 ， 但 是 还 没有 递送 给 目标 进程 的 这 一 段 时 间 里， 信号 处 于 挂 起 状态 ， 被 称 为 挂 起 (pending) 信号 ， 也 称 为 未 决 信号 。 内 核 将 信号 递送 给 进程 ， 进 程 就 会 暂停 当前 的 控制 流 ， 转 而 去 


执行 信号 处 理 函 数 。 这 就 是 一 个 信号 的 完整 生命 周期 。 


一 个 典型 的 信号 会 按照 上 面 所 述 的 流程 来 处 理 ， 但 是 实际 情况 要 复杂 得 多 ， 还 有 很 多 场景 需要 考虑 ， 比 如 : 


“ 目标 进程 正在 执行 关键 代码 ， 不 能 被 信号 中 断 ， 需 要 阻塞 某 些 信号 ， 那 么 在 这 期 间 ， 信 和 号 就 不 允许 被 递送 到 进程 ， 直 到 目标 进程 解除 阻塞 。 


“ 内 核发 现 同一 个 信号 已 经 存在 ， 那 么 它 该 如 何 处 理 这 种 重复 的 信号 ， 排 队 还 是 丢弃 ? 


:内核 递送 信号 的 时 候 ， 发 现 已 有 多 个 不 同 的 信和 号 被 挂 起 ， 那 它 应 该 优先 递送 哪个 信号 ? 


“ 对 于 多 线程 的 进程 ， 如 果 向 该 进程 发 送信 号 ， 应 该 由 哪个 线程 来 负责 响应 ? 


这 些 问题 ， 在 接 下 来 的 章节 中 会 逐一 得 到 解决 。 


6.2 ”信号 的 产生 


“ 硬件 异常 。 
“ 终端 相关 的 信号 。 


. 软件 事件 相关 的 信号 。 


6.3 “信号 的 默认 处 理 函 数 


作为 进程 间 通 信 的 一 种 手段 ， 进 程 之 间 可 以 互相 发 送信 号 ， 然 而 发 给 进程 的 信号 ， 通 常 源 于 内 核 ， 包 括 : 


从 上 一 节 可 以 看 出 ， 信 号 产生 的 源头 有 很 多 。 那 么 内 核 将 信号 递送 给 进程 后 ， 进 程 会 执行 什么 操作 呢 ? 


很 多 信号 尤其 是 传统 的 信号 ， 都 会 有 默认 的 信号 处 理 方式 。 如 果 我 们 不 改变 信号 的 处 理 函 数 ， 那 么 收 到 信号 之 后 ， 就 会 执行 默认 的 操作 。 


信号 的 默认 操作 有 以 下 几 种 : 


“ 显 式 地 忽略 信号 : 即 内 核 将 会 丢弃 该 信号 ， 信 号 不 会 对 目标 进程 产生 任何 影响 。 


“ 终止 进程 : 很 多 信号 的 默认 处 理 是 终止 进程 ， 即 将 进程 杀 死 。 


“ 生成 核心 转 储 文件 并 终止 进程 : 进程 被 杀 死 ， 并 且 产 生 核心 转 储 文件 。 核 心 转 储 文件 记录 了 进程 死亡 现场 的 信息 。 用 户 可 以 使 用 核心 转 储 文件 来 调试 ， 分 析 进 程 死亡 的 原因 。 


“ 停止 进程 : 停止 进程 不 同 于 终止 进程 ， 终 止 进程 是 进程 已 经 死亡 ， 但 是 停止 进程 仅仅 是 使 进程 暂停 ， 将 进程 的 状态 设置 成 TASK_STOPPED， 一旦 收 到 恢复 执行 的 信号 ， 进 程 还 可 以 继续 执行 。 


“ 恢复 进程 的 执行 : 和 停止 进程 相对 应 ， 某 些 信号 可 以 使 进程 恢复 执行 。 


这 5 种 行为 的 简单 标记 如 下 : 


* ignore 


* terminate 


“ core 


“ stop 


“ continue 


事实 上 ,根据 信号 的 默认 操作 ， 可 以 将 传统 信号 分 成 5 派 ， 具 体 见 表 6-3 到 表 6-7。 


信 号 
SIGCHLD 
SIGURG 
SIGWINCH 28 


表 6-3 ”ignore 派 的 信号 


说 明 


了 进程 终止 、 停 止 或 恢复 执行 


终端 窗口 大 小 发 生变 化 


表 6-4 ”terminate 派 的 信号 


信 号 值 说 明 
SIGHUP 1 挂 起 (hangup)， 多 用 于 终端 断 开 
SIGINT 5 终端 中 断 
i 站 人 该 信号 不 能 被 忽略 ,不 能 被 屏蔽 ， 用 户 不 能 将 信号 处 理 函 数 改 写成 用 户 定 
SIGUSR1 10 用 户 自 定义 信号 1 
SIGUSR2 12 用 户 自 定义 信号 2 
SIGPIPE 13 管道 断 开 ， 多 见于 socket 通信 
SIGALRM 14 定时 器 到 期 ,该 信号 多 用 于 实现 定时 器 
终止 进程 。 因 为 SIGKILL 过 于 残暴 ,进程 终止 时 ， 可 能 需要 先 执行 一 些 操作 来 保存 
SIGTERM 15 | 现场 信息 ， 所 以 合理 地 杀 死 进程 的 方法 是 先 发 送 SIGTERM 信号 ， 稍 等 片刻 ， 再 发 送 
SIGKILL 信号 
SIGSTKFLT 16 协 处 理 器 栈 错误 ，Linux 并 未 使 用 该 信号 
SIGVTALRM | 26 虚拟 定时 器 过 期 ，setitimer 函数 的 ITIMER_VIRTUAL 模式 
SIGPROF 97 性 能 分 析 定 时 器 过 期 ，setitimer 函数 的 ITIMER_PROF 模式 
SIGIO 29 IO 时 可 能 发 生 
SIGPWR 30 电量 将 要 耗 尽 
表 6-5 core 派 的 系统 调用 
信 号 说 明 
SIGQUIT 终端 Ctrlh\ 可 产生 该 信号 
SIGILL 非法 的 指令 
SIGTRAP 跟踪 / 断 点 陷阱 ，gdb/strace 一 类 工具 会 使 用 该 信号 93。 这 类 工具 会 拦截 或 修改 
SIGTRAP 信号 的 信号 处 理 函 数 
( 续 ) 
信 号 说 _ 明 
SIGABRT | 进程 中 止 ， 进 程 调用 abort 函数 会 向 自身 发 送 SIGABRT 信号 ， 此 外 如 果 使 用 了 断言 
assert，assert 失败 时 也 会 产生 SIGABRT 信号 
SIGBUS 总 线 错误 
SIGFPE ss 算术 异常 
SIGSEGV 区 到 段 错误 ,访问 了 非法 的 地 址 
SIGXCPU 突破 了 对 CPU 时 间 的 限制 
SIGXFSZ 突破 了 对 文件 大 小 的 限制 
SIGSYS 无 效 的 系统 调用 


( 注 : ptrace/SIGTRAP/int3 的 关联 ，http://blog.linux.org.tw/~jserv/archives/2010/08/ptrace_sigtrap.html。) 


表 6-6 stop 派 的 信号 


信 说 明 


确保 进程 会 停止 ,该 信号 不 能 被 忽略 ， 不 能 将 信号 处 理 函数 改写 成 用 户 指定 的 函数 


SIGTSTP 0 级 端 停止 信和 县， 和 SIGSTOP 功能 类 似 ， 但 是 可 以 被 进程 忽略 ， 可 以 被 捕捉 执行 用 户 
四 上 定 的 信号 处 理 函 数 


帆 


SIGSTOP 


用 于 作业 控制 ， 如 果 后 人 台 进 程 组 尝试 对 终端 执行 read 操作 ， 终 端 驱 动 程序 就 会 向 该 进 


SIGTTIN 
哩 组 发 送 SIGTTIN 信号 


SIGTTOU ee TOSTOP (如 通过 stty tostop 命令 ) 即 不 允许 后 台 进 程 向 终端 写 人 ， 而 
某 一 后 台 进 程 尝试 写 入 终端 时 ,终端 驱动 程序 就 会 向 进程 组 发 送 SIGTTOU 信号 
表 6-7 continue 派 的 信号 
说 明 
如 果 目 标 进程 处 于 停止 状态 ， 则 恢复 执行 


信号 的 这 些 默 认 行 为 是 非常 有 用 的 。 比 如 停止 行为 和 恢复 执行 。 系 统 可 能 有 一 些 备份 的 工作 ， 这 些 工作 优先 级 并 不 高 ， 但 是 却 消耗 了 大 量 的 MO 资源 ， 甚 至 是 CPU 资源 (比如 需要 先 压缩 再 备份 ) 。 这 样 
的 工作 一 般 是 在 夜深人静 ， 业 务 稀少 的 时 候 进行 的 。 在 业务 比较 繁忙 的 情况 下 ， 如 果 备 份 工作 还 在 进行 ， 则 可 能 会 影响 到 业务 。 这 时 候 停止 和 恢复 就 非常 有 用 了 。 在 业务 繁忙 之 前 ， 可 以 通过 SIGSTOP 信 号 
将 备份 进程 暂停 ， 在 几乎 没有 什么 业务 的 时 候 ， 通 过 SIGCONT 信 号 使 备份 进程 恢复 执行 。 


很 多 信号 产生 核心 转 储 文件 也 是 非常 有 意义 的 。 一 般 而 言 ， 程 序 出 错 才 会 导致 SIGSEGV、SIGBUS、SIGFPE、SIGILL 及 SIGABRT 等 信号 的 产生 。 生 成 的 核心 转 储 文件 保留 了 进程 死亡 的 现场 ， 提 供 了 大 
量 的 信息 供 程序 员 调 试 、 分 析 错误 产生 的 原因 。 核 心 转 储 文件 的 作用 有 点 类 似 于 航空 中 的 黑 盒 子 ， 可 以 帮助 程序 员 还 原 事故 现场 ， 找 到 程序 漏洞 。 


很 多 情况 下 ， 默 认 的 信号 处 理 函 数 ， 可 能 并 不 能 满足 实际 的 需要 ， 这 时 需要 修改 信号 的 信号 处 理 函 数 。 信 和 号 发 生 时 ， 不 执行 默认 的 信号 处 理 函 数 ， 改 而 执行 用 户 自 定义 的 信号 处 理 函 数 。 为 信号 指定 新 
的 信号 处 理 函 数 的 动作 ， 被 称 为 信号 的 安装 。glibc 提 供 了 signal 函 数 和 sigaction 函 数 来 完成 信号 的 安装 。signal 出 现 得 比较 早 ， 接 口 也 比较 简单 ，sigaction 则 提供 了 精确 的 控制 。 


6.4 信号 的 分 类 


在 Linux 的 shell 终 端 ， 执 行 kill-1|， 可 以 看 到 所 有 的 信和 号: 


1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 
6) SIGABRT 7) SIGBUS 8) SIGFPE 9) SIGKILL 10) SIGUSR1 
11) SIGSEGV 12) SIGUSR2 13) SIGPIPE 14) SIGALRM 15) SIGTERM 
16) SIGSTKFLT 17) SIGCHLD 18) SIGCONT 19) SIGSTOP 20) SIGTSTP 
21) SIGTTIN 22) SIGTTOU 23) SIGURG 24) SIGXCPU 25) SIGXFSZ 
26) SIGVTALRM 27) SIGPROF 28) SIGWINCH 29) SIGIO 30) SIGPWR 
31) SIGSYS 34) SIGRTMIN 35) SIGRTMIN+1 36) SIGRTMIN+2 37) SIGRTMIN+3 
38) SIGRTMIN+4 39) SIGRTMIN+S 40) SIGRTMIN+6 41) SIGRTMIN+7 42) SIGRTMIN+8 
43) SIGRTMIN+9 44) SIGRTMIN+10 45) SIGRTMIN+11 46) SIGRTMIN+12 47) SIGRTMIN+13 
48) SIGRTMIN+14 49) SIGRTMIN+15 50) SIGRTMAX-14 51) SIGRTMAX-13 52) SIGRTMAX-12 
53) SIGRTMAX-11 54) SIGRTMAX-10 55) SIGRTMAX-9 56) SIGRTMAX-8 57) SIGRTMAX-7 
58) SIGRTMAX-6 59) SIGRTMAX-5 60) SIGRTMAX-4 61) SIGRTMAX-3 62) SIGRTMAX-2 
63) SIGRTMAX-1 64) SIGRTMAX 

这 些 信号 可 以 分 成 两 类 : 

“可靠 信 号 。 

“ 不 可 靠 信号 。 


信号 值 在 [1，31] 之 间 的 所 有 信和 号， 都 被 称 为 不 可 靠 信号 ; 在 [SIGRTMIN，SIGRTMAX] 之 间 的 信号 ， 被 称 为 可 靠 信号 


不 可 靠 信 号 是 从 传统 的 Unix 继 承 而 来 的 。 早 期 Unix 系 统 信号 的 机 制 并 不 完备 ， 在 实践 过 程 中 暴露 了 很 多 次 端 ， 因 此 把 这 些 早期 出 现 的 信号 值 在 [1，31] 之 间 的 信号 称 之 为 不 可 靠 信 和 号。 所谓 不 可 靠 , 指 的 
是 发 送 的 信号 ， 内 核 不 一 定 能 递送 给 目标 进程 ， 信 号 可 能 会 丢失 。 


随 着 时 间 的 流逝 ， 人 们 意识 到 原 有 的 信号 机 制 存在 弊端 。 但 是 [1，31] 之 间 的 信号 存在 已 久 ， 在 很 多 应 用 中 被 广泛 使 用 ， 出 于 兼容 性 的 考虑 ， 不 能 改变 这 些 信号 的 行为 模式 ， 所 以 只 能 新 增 信号 。 新 增 的 
信号 就 是 我 们 今天 看 到 的 在 [SIGRTMIN ，SIGRTMAX] 范 围 内 的 信号 ， 它 们 被 称 为 可 靠 信 号 。 


对 信和 号 有 了 初步 了 解 后， 知道 signal 和 sigaction 函 数 接口 的 读者 可 能 会 产生 误解 ， 认 为 用 signal 函 数 安 装 、 用 kill 函 数 (或 者 tkill 函 数 ) 发 送 的 信号 ， 就 是 不 可 靠 信号 ; 用 sigaction 函 数 安装 、 
sigqueue 函 数 发 送 的 信号 ， 就 是 可 靠 信号 。 这 种 理解 是 错误 的 。 信 号 的 可 靠 与 否 ， 完 全 取决 于 信号 的 值 ， 而 与 采用 哪 种 方式 安装 或 发 送 无 关 。 


说 了 这 么 多 ， 不 可 靠 信号 和 可 靠 信号 的 根本 差异 到 底 在 哪里 根本 差异 在 于 收 到 信号 后 ， 内 核 有 不 同 的 处 理 方式 。 


对 于 不 可 靠 信号 ， 内 核 用 位 图 来 记录 该 信号 是 否 处 于 挂 起 状态 。 如 果 收 到 某 不 可 靠 信号 ， 内 核发 现 已 经 存在 该 信号 处 于 未 决 状态 ， 就 会 简单 地 丢弃 该 信号 。 因 此 发 送 不 可 靠 信号 ， 信 号 可 能 会 丢失 ， 即 
内 核 递 送 给 目标 进程 的 次 数 ， 可 能 小 于 信号 发 送 的 次 数 。 


对 于 可 靠 信 号 ， 内 核 内 部 有 队列 来 维护 ， 如 果 收 到 可 靠 信 号 ， 内 核 会 将 信号 挂 到 相应 的 队列 中 ， 因 此 不 会 丢失 。 严 格 说 来 ， 内 核 也 设 有 上 限 ， 挂 起 信号 的 个 数 也 不 能 无 限制 地 增 大 ， 因 此 只 能 说 ,在 一 
定 范围 之 内 ， 可 靠 信号 不 会 被 丢弃 。 


Bt 总 如 果 细 心 观察 从 Fill-] 列 出 的 信号 ， 可 以 看 出 ， 其 中 少 了 32 号 信号 和 33 号 信号 。 这 两 个 信号 〈SIGCANCEL 和 SIGSETXID) 被 NPTL 这 个 线程 库 征 用 了 ， 用 来 实现 线程 的 取消 。 从 内 核 层 来 说 ，32 


号 信号 应 该 是 最 小 的 实时 信号 (SIGRTMIN) ， 但 是 由 于 32 号 和 33 号 被 glibc 内 部 征用 了 ， 所 以 glibc 将 SIGRTMIN 设 置 成 了 34 号 信和 号 


6.5 ”传统 信号 的 特点 


前 文 提 到 过 ，signa| 是 一 个 古老 的 机 制 ， 早 期 的 信号 在 使 用 过 程 中 ， 暴 露出 了 一 些 浆 端 ， 那 么 早期 的 信号 机 制 有 什么 弊端 ， 表 现 出 了 什么 样 的 行为 模式 呢 今天 Linux 下 的 glibc 提 供 的 信号 函数 是 否 解决 
了 这 些 次 端 ， 它 又 表现 出 了 什么 样 的 行为 模式 呢 ? 下 面 来 一 探究 竟 。 


传统 的 signal 机 制 ， 分 为 System V 风 格 和 BSD 风 格 的 signal。 


glibc 提 供 了 signal 函 数 来 注册 用 户 定义 的 信号 处 理 函 数 ， 代 码 如 下 : 


#include <signal .h> 
typedef void (*sighandler t) (int); 
sighandler t signal (int signum, sighandler t handler); 


除 此 以 外 ，Linux 还 提供 了 如 下 两 个 接口 供 我 们 “考古 ”， 下 面 来 探查 一 下 signal 机 制 的 演化 : 


#include <signal.h> 

typedef void (*sighandler t) (Int) 7 

sighandler t sysv_signal (int signum, sighandler t handler); 
sighandler t bsd signal (int signum, sighandler t handler) 


从 接口 上 看 ， 存 在 4 种 signal 函 数 ， 见 表 6-8。 


表 6-8 ”四 种 signdl 函 数 


EH 数 访 明 


syscall(SYS signal.signo.func) signal 系统 调用 
signal() glibe 的 signal 男 数 
sysv_signal() System V 风格 的 signal 函数 


bsd_signal() BSD 风格 的 signal 函数 


接 下 来 用 实验 的 方法 ， 测 试 各 种 不 同 的 信号 机 制 表现 出 来 的 行为 模式 ， 帮 助 大 家 体会 传统 信号 的 特点 和 弊端 ， 以 及 学 习 Linux 下 glibc 提 供 的 signal 函 数 的 行为 特性 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <signal.h> 
#include <string.h> 
#include <errno.h> 
#include <sys/syscall.h> 
#define MSG "OMG , I catch the signal SIGINT\n" 
#define MSG END "OK, finished process signal SIGINT\n™" 
int do heavy work() 
{ 

int i »; 

int k; 

srand (time (NULL) ) 7 

for(i=0 ;i< 100000000;i++) 

{ 

k = rand()®%1234589; 

} 

return 0; 
} 


void signal handler (int signo) 


write (2, MSG, strlen (MSG) ); 
do heavy work(); 
write (2, MSG END, strlen (MSG END)); 


int main() 


char input{[1024] = {0}; 
#if defined SYSCALL SIGNAL API 
if(syscall (SYS signal ,SIGINT,signal handler) 一 -1) 
#elif defined SYSV_SIGNAL API 
if (sysv_ signal (SIGINT, signal handler) 一 SIGERR) 
#elif defined BSD SIGNAL API 
if (bsd signal (SIGINT, signal handler) == SIGERR) 
#else 站 
if(signal (SIGINT, signal handler) == SIG ERR) 
#endif 
{ 
fprintf (stderr,"signal failed\n"); 
return -1; 


printf ("input a string:\n"); 
if (fgets (input, sizeof (input), stdin)== NULL) 
{ 


fprintf (stderr, "fgets failed(%s)\n",strerror (errno)); 
return -2; 
i 


else 


{ 


printf ("you entered:%s",input); 


return 0; 


斜体 的 地 方 是 这 个 测试 程序 的 核心 ， 这 个 函数 分 别 采 用 了 Linux 操 作 系 统 提供 的 signal 系 统 调用 、System V 风 格 的 sysv_signal、BSD 风 格 的 bsd_signal， 还 有 glibc 提 供 的 标准 API signal 函 数 。 下 面 来 分 
别 体会 它们 之 间 的 不 同 之 处 。 


gcc -oO systemcall _ signal -DSYSCALL SIGNAL API signal_comp.c 
gcc -o sysv_signal -DSYSV_SIGNAL API signal comp.c 
gcc -~o bsd signal -DBSD_SIGNAL API signal comp.c 
gcc -o glibc signal signal comp.c 


这 里 分 别 生成 了 4 种 风格 的 测试 程序 ， 接 下 来 就 可 以 验证 它们 的 特性 了 。 


Ot 总 因为 在 x86_64 位 系统 上 ，glibc 的 头 文件 并 没有 声明 signal 系 统 调用 ， 因 此 ， 无 法 使 用 sysc 纪 函数 来 调用 signal 系 统 调用 。 详 情 可 以 参阅 bits/syscall.h。 不 得 已 ， 只 能 在 32 位 机 器 上 做 测试 ， 比 较 四 种 


函数 语义 上 的 差别 。 后 面 的 输出 都 是 在 32 位 机 器 上 的 输出 ， 和 希望 不 会 给 大 家 带 来 困扰 。 


6.6 信号 的 可 靠 性 


6.4 节 讲 信号 的 分 类 时 提 到 过 ， 传 统 的 信号 存在 信号 丢失 的 问题 ， 
进程 发 送信 号 ， 然 后 通过 比较 信号 发 送 的 次 数 和 信号 处 理 函 数 执行 的 次 数 来 验证 是 否 存在 信号 丢失 的 问题 。 


6.7 ”信号 的 安装 


供 更 精确 的 控制 。 


先 来 看 一 下 sigaction 函 数 的 定义 : 


#include <signal.h> 
int sigaction(int signum, const struct sigaction *act, 
struct sigaction *oldact); 

struct sigaction { 


(*sa_ sigaction) (int, siginfo t *, void *); 


void (*sa handler) (int) 
void 3 

sigset 七 sa mask; 

int ~ sa flags; 

void (*sa_restorer) (void); 


顾名思义 ，sa_mask 就 是 信号 处 理 函 数 执行 期 间 的 
期 间 ，SIGINT 信 号 不 会 被 递送 给 进程 。 但 是 ， 也 仅仅 是 SIGINT， 如 果 执 行 SIGINT 信 和 号 处 理 函 数 期 间 ， 需 要 


求 对 sigaction 函 数 而 言 ， 根 本 就 不 是 问题 ， 只 需 如 下 代码 即 可 做 到 : 


struct sigaction sa; 
sa.sa mask = SIGHUP|SIGUSR1 |SIGINT; 


需要 特别 指出 的 
有 信号 的 处 理 函 数 ， 


作 系 统 徒 叹 奈何 的 困 


是 ， 并 不 是 所 有 的 信 


都 能 被 屏 项。 对 于 SIGKILL 和 SIGSTOP， 不 可 以 为 它们 安装 信号 处 理 函 数 ， 也 不 能 


那么 操作 系统 可 能 无 法 控制 这 些 进 程 。 换 言 之 ， 操 作 系 统 是 终极 boss， 需 要 杀 死 某 些 进程 的 时 候 ， 要 能 够 做 到 ，SIGKILL 和 SIGSTOP 不 能 被 


境 。 


上 面 给 出 的 sigaction 结 构 体 的 定义 并 非 严格 意义 上 的 定义 ， 即 结构 体 必 须要 有 上 述 的 成 员 变 量 ， 但 成 员 变 量 的 具体 顺序 取决 了 


此 被 称 为 不 可 靠 信号 。 为 了 对 传统 的 不 可 靠 信号 有 更 直观 的 认识 ， 下 


百 


前 面 讲 了 传统 信号 的 很 多 浆 端 ， 讲 了 signal 的 兼容 性 问题 ， 有 问题 就 会 有 解决 方案 。 对 此 ，Linux 提 供 了 新 的 信号 安装 方法 : sigaction 函 数 。 和 signal 函 数 相 比 ， 这 个 函数 的 优点 在 了 


来 做 一 个 简单 的 实验 ， 让 事实 来 说 话 。 我 们 可 以 疯狂 地 向 某 个 


语义 明确 ， 可 以 提 


屏蔽 信号 集 。 前 文 介绍 bsd _signal 的 时 候 曾 提 到 ， 为 SIGINT 安 装 处 理 函数 时 ， 内 核 会 


实现 。 


自动 将 SIGINT 添 加 入 


蔽 掉 这 些 信号。 原因 


蔽 信号 集 ， 在 SIGINT 信 号 处 理 函 数 执行 


项 SIGHUP、SIGUSR1 等 其 他 信号 ， 那 bsd_signal 函 数 就 爱 莫 能 助 了 。 这 个 屏蔽 其 他 信和 号 的 需 


是 ， 系 统 总 要 控制 某 些 进程 ， 如 果 进 程 可 以 自行 设计 所 
屏蔽 ， 就 是 为 了 防止 出 现 进程 无 法 无 天 而 操 


四 党 SIGKILL 和 SIGSTOP 也 不 是 万 能 的 。 如 果 进 程 处 于 TASK_UNINTERRUPTIBLE 的 状态 ， 进 程 就 不 会 处 理 信号 。 如 果 进 程 失 控 ， 长 期 处 于 该 状态 ，SIGKILL 也 无 法 杀 死 该 进程 。 详 情 可 以 回顾 


第 5 章 。 


若 通 过 sigaction 强 行 给 SIGKILL 或 SIGSTOP 注 册 信 号 处 理 函 数 ， 则 会 返回 -1， 并 置 errno 为 EINVAL。 


在 sigaction 函 数 接 


已 经 讨论 过 了 。 


(1) SA_NOCLDSTOP 


这 个 标志 位 只 


“ 子 进 程 终止 《 即 子 进程 死亡 ) 


“ 子 进 程 停 止 〈 即 子 进程 暂停 ) 


“ 子 进程 恢复 〈《 即 子 进程 从 暂停 中 恢复 执行 ) 


(2) SA NOCLDWAIT 


这 个 标志 只 用 于 SIGCHLD 信 号 ， 它 可 控制 上 面 提 到 的 子 进程 终止 时 的 行为 。 如 果 父 进程 为 SIGCHLD 设 置 了 SA_NOCLDWAIT 标 志 位 ， 那 么 子 进程 退 4 
体 的 实现 。 对 于 Linux 而 言 ， 仍 然 会 发 送 SIGCHLD 信 号 。 这 点 和 上 面 的 SA_NOCLDSTOP 略 有 不 同 。 


是 子 进程 还 会 不 会 向 父 进程 发 送 SIGCHLD 信 号 呢 ? 这 取决 于 


其 中 SA_NOCLDSTOP 标 志 位 是 


(3) SA_ONESHOT 和 SA_RESETHAND 


这 两 个 标志 位 的 本 质 是 一 样 的 


(4) SA NOD 


EFER 和 SA_NOMASK 


于 SIGCHLD 信 号 。4.7 节 “等 待 子 进程 ”中 曾经 提 到 过 ， 父 进程 可 以 监测 子 进程 的 三 种 导 


来 控制 第 二 种 和 第 三 种 事件 的 。 即 一 旦 父 进程 为 SIGCHLDf 


这 两 个 标志 位 的 作用 是 一 样 的 ， 在 信号 处 理 函 数 执行 期 间 ， 不 阻塞 当前 信号 。 


(5) SA_RESTART 


这 个 标志 位 表示 ， 如 果 系 统 调 用 被 信 


(6) SA SIGINFO 


这 个 标志 位 表示 信 


启 系 统 调用 。 


中 断 ， 则 不 返回 错误 ， 而 是 自动 


件 : 


， 表 示 信 号 处 理 函 数 是 一 次 性 的 ， 信 号 递送 出 去 之 后 ， 信 和 号 处 理 函 数 便 恢 复 成 默认 值 SIG_DFL。 


发 送 者 会 提供 额外 的 信息 。 这 种 情况 下 ， 信 号 处 理 函 数 应 该 为 三 参数 的 函数 ， 代 码 如 下 : 


置 了 这 个 标志 位 ， 那 么 子 进程 停止 和 子 进程 恢复 这 两 件 导 


中 ， 比 较 有 意思 的 是 sa_flags。sigaction 函 数 之 所 以 可 以 提供 更 精确 的 控制 ， 大 部 分 都 是 该 参数 的 功劳 。 下 面 简要 介绍 一 下 sa_flags 的 含义 ， 其 中 很 多 标志 位 并 不 是 新 面孔 ， 前 面 


时时 ， 就 不 会 进入 僵 


情 ， 就 无 须 向 父 进程 发 送 SIGCHLD 信 号 了 。 


尸 状态 ， 而 是 直接 自行 了 断 。 但 


void handle (int, siginfo t *, void *); 


此 处 重点 讲述 一 下 带 SA_sIGINFO 标 志 位 的 信号 安装 方式 。 本 章 引 言 中 提 到 过 ，signal 的 本 质 是 一 种 进程 间 的 通信 。 一 个 进程 向 另外 一 个 进程 发 送信 号， 能 够 传递 的 信息 ， 不 仅仅 是 signo， 它 还 可 以 发 
送 更 多 的 信息 ， 而 接收 进程 也 能 获取 到 发 送 进程 的 PID、UID 及 发 送 的 额外 信息 。 


来 看 下 面 的 例子 : 


#include<stdio.h> 
#include<stdlib.h> 
#include<signal.h> 
void sig handler (int signo,siginfo t *info,void *context) 


printf("\nget signal:%d\n",signo); 

printf ("signal number is %d\n",info->si signo); 
printf ("pid=%d\n", info->si pid); 

printf ("sigval = %d\n",info->si value.sival int); 


人 
人 
人 
人 


int main (void) 


struct sigaction new action7 

sigemptyset (&new action.sa mask); 

new action.sa sigaction = sig handler; 

new action.sa flags |= SA SIGINFO|SA RESTART; 

if (sigaction (36, gnew_action, NULL)==-1) { 
printf("set signal process mode\n"); 
exit (1); 


} 
while(1) 

Pause () 7 
printf ("Done\n"); 
exit (0); 


这 个 例子 比较 简单 ， 为 36 号 信号 注册 了 信号 处 理 函 数 。 因 为 sa_flags 带 上 了 SA_SIGINFO 标 志 位 ， 所 以 必须 使 用 三 参数 的 信号 处 理 函 数 。 


void sig handler(int signo,siginfo t *info,void *context) 


本 例 中 的 信号 处 理 函 数 中 ，info->si_pid 记 录 着 信号 发 送 者 的 PID，info->si_value.sival_int 是 信号 发 送 进 程 时 额外 发 送 的 int 值 。 发 送 进 程 和 接收 进程 约定 好 ， 发 送 者 使 用 sigqueue 发 送信 号 ， 同 时 带 上 


int 型 的 额外 信息 ， 接 收 进程 就 能 获得 发 送 进程 的 PID 及 int 型 的 额外 信息 。 


如 果 调 用 sigaction 函 数 时 ，sa_flags 带 了 slIGINFO 标 志 位 ， 那 么 进程 可 以 获得 哪些 信息 ”6.8.3 小 节 介绍 sigqueue 函 数 时 ， 会 展开 讲述 。 


6.8 信号 的 发 送 
6.8.1 kill、tkill 和 tgkill 


kill 函 数 的 接口 定义 如 下 : 


#include <sys/types.h> 
#include <signal.h> 
int kill (pid t pid, int sig); 


注意 ， 不 能 望 文生 义 ， 将 kill 函 数 的 作用 理解 为 杀 死 进程 。kill 函 数 的 作 有 


同 含义 ， 具 体 来 讲 ， 可 以 分 成 以 下 几 种 情况 。 
pid>>0: 发 送信 号 给 进程 ID 等 于 pid 的 进程 。 


“pid 二 0: 发 送信 号 给 调用 进程 所 在 的 同一 个 进程 组 的 每 一 个 进程 。 


是 发 送信 号 。 kill 函 数 不 仅 可 以 向 特定 进程 发 送信 号 ， 也 可 以 向 特定 进程 组 发 送信 号 。 第 一 个 参数 pid 的 值 ， 决 定 了 kill 函 数 的 不 


“pid 二 -1: 有 权限 向 调用 进程 发 送信 号 的 所 有 进程 发 出 信号 ，init 进 程 和 进程 自身 除外 。 


“ pid<<-1: 向 进程 组 -pid 发 送信 号 。 


当 函 数 成 功 时 ， 返 回 9， 失 败 时 ， 返 回 -1， 并 置 errno。 常 见 的 出 错 情况 见 表 6-12。 


errno 
EINVAL 
EPERM 


ESRCH 


表 6-12 Kill 画 数 的 错误 码 及 说 明 
说 明 
无 效 的 信号 值 
该 进程 没有 权限 发 送信 号 给 目标 进程 
目标 进程 或 进程 组 不 存在 


有 一 种 情况 很 有 意思 ， 即 调用 kill 函 数 时， 第 二 个 参数 signo 的 值 为 0。 众 所 周知 ， 没 有 一 个 信号 的 值 是 为 0 的 ， 这 种 情况 下 ，Kkill 函 数 其 实 并 不 是 真 的 向 目标 进程 或 进程 组 发 送信 号 ， 而 是 用 来 检测 目标 进 
程 或 进程 组 是 否 存 在 。 如 果 kill 函 数 返 回 -1 且 errno 为 ESRCH， 则 可 以 断定 我 们 关注 的 进程 或 进程 组 并 不 存在 。 


发 送信 号 的 典型 方法 如 下 : 


if (kill (3423, SIGUSR1) == -1) 


/*error handler*/ 


} 


如 何 向 线程 发 送信 号 ? 


Linux 提 供 了 tkilf 和 tgkill 两 个 系统 调用 来 向 某 个 线程 发 送信 号 : 


int tkill (int tid, int si19)7 
int tgkill (int tgid, int tid, int sig); 


这 两 个 都 是 内 核 提 供 的 系统 调用 ，glibc 并 没有 提供 对 这 两 个 系统 调用 的 封装 ， 所 以 如 果 想 使 用 这 两 个 函数 ， 需 要 采用 syscall 的 方式 ， 如 下 : 


ret = syscall (SYS tkill,tid, sig) 
ret = syscall (SYS tgkill,tgid,tid, sig) 


等 一 下 ， 为 什么 有 了 tkil， 还 要 引入 tgkill? 


实际 上 ，tkil 是 一 个 过 时 的 接口 ， 并 不 推荐 使 用 它 来 向 线程 发 送信 号 。 相 比 之 下 ，tgkill 接 口 更 加 安全 。tgkill 系 统 调 用 的 第 一 个 参数 tgid， 为 线程 组 中 主线 程 的 线程 ID， 或 者 称 为 进程 号 。 这 个 参数 表面 
看 起 来 是 多 余 的 ， 其 实 它 能 起 到 保护 的 作用 ， 防 止 向 错误 的 线程 发 送信 号 。 进 程 1D 或 线程 ID 这 种 资源 是 由 内 核 负责 管理 的 ， 进 程 (或 线程 ) 有 自己 的 生命 周期 ， 比 如 向 线程 ID 为 1234 的 线程 发 送信 号 时 ， 很 
可 能 线程 1234 早 就 退出 了 ， 而 线程 ID 1234 怡 好 被 内 核 分 配给 了 另 一 个 不 相干 的 进程 。 这 种 情况 下 ， 如 果 直 接 调用 tkil， 就 会 将 信号 发 送 到 不 相干 的 进程 上 。 为 了 防止 出 现 这 种 情况 ， 于 是 内 核 引 入 了 tgkill 
系统 调用 ， 含 义 是 向 线程 组 ID 是 tgid、 线 程 ID 为 tid 的 线程 发 送信 号。 这 样 ， 出 现 误杀 的 可 能 就 几乎 不 存在 了 。 


这 两 个 函数 都 是 Linux 特 有 的 ， 存 在 可 移植 性 的 问题 。 


6.9 ”信号 与 线程 的 关系 


前 面 也 曾 简单 提 到 过 多 线程 ， 比 如 如 何 向 多 线程 中 的 某 个 线程 发 送信 号 ， 本 节 就 来 重点 讲述 多 线程 与 信号 的 关系 。 


提 到 线程 与 信号 的 关系 ， 必 须 先 介绍 下 POSIX 标 准 ，POSIX 标 准 对 多 线程 情况 下 的 信号 机 制 提 出 了 一 些 要求 : 


“ 信号 处 理 函 数 必须 在 多 线程 进程 的 所 有 线程 之 间 共 享 ， 但 是 每 个 线程 要 有 自己 的 挂 起 信号 集合 和 阻塞 信号 掩 码 。 


"POSIX 函数 kil/sigqueue 必 须 面向 进程 ， 而 不 是 进程 下 的 某 个 特定 的 线程 。 


“ 每 个 发 给 多 线程 应 用 的 信号 仅 递送 给 一 个 线程 ， 这 个 线程 是 由 内 核 从 不 会 阻塞 该 信号 的 线程 中 随意 选 出 来 的 。 
“ 如 果 发 送 一 个 致命 信号 到 多 线程 ， 那 么 内 核 将 杀 死 该 应 用 的 所 有 线程 ， 而 不 仅仅 是 接收 信号 的 那个 线程 。 


这 些 就 是 POSIX 标 准 提出 的 要 求 ，Linux 也 要 遵循 这 些 要 求 ， 那 它 是 怎么 做 到 的 呢 ? 


6.10 等待 信号 


有 时 候 ， 需 要 等 待 某 种 信号 的 发 生 。POSIX 中 的 pause、sigsuspend 和 sigwait 函 数 提供 了 三 种 方法 ， 可 以 将 进程 暂时 挂 起， 等 待 信号 来 临 。 


6.11 ”通过 文件 描述 符 来 获取 信号 


从 内 核 2.6.22 版 本 开始 ，Linux 提 供 了 另外 一 种 机 制 来 接收 信号 : 通过 文件 描述 符 来 获取 信号 即 signalfd 机 制 。 


这 个 机 制 和 sigwaitinfo 非 常 地 类 似 ， 都 属于 同步 等 待 信号 的 范畴 ， 都 需要 首先 调用 sigprocmask 将 关注 的 信号 屏蔽 ， 以 防止 被 信号 处 理 函 数 动 走 。 不 同 之 处 在 于 ， 文 件 描述 符 方法 提供 了 文件 系统 的 接 
口 ， 可 以 通过 select、poll 和 epoll 来 监控 这 些 文件 描述 符 。 


signalfd 接 口 的 定义 如 下 : 


#include <sys/signalfd.h> 
int signalfd(int fd, const sigset t *mask, int flags); 


其 中 ，mask 参 数 是 信号 集 ， 表 示 关 注 信 号 的 集合 。 这 些 信号 的 集合 应 该 在 调用 signalfd 冰 数 之 前 ， 先 调用 sigprocmask 函 数 阻塞 这 些 信 和 号， 以 防止 被 信号 处 理 函 数 动 走 。 


首次 创建 时 fd 参数 应 该 为 -1， 该 函数 会 创建 一 个 文件 描述 符 ， 用 于 读 取 mask 中 到 来 的 信号 。 如 果 fd 不 是 -1， 则 表示 是 修改 操作 ， 一 般 是 修改 mask 的 值 ， 此 时 fd 是 之 前 调用 signalfd 时 返回 的 值 。 


第 三 个 参数 flags 用 来 控制 行为 ， 目 前 支持 的 标志 位 如 下 。 


“ SFD_CLOEXEC: 和 普通 文件 的 O_CLOEXEC 一 样 ， 调 用 exec 函 数 时 ， 文 件 描 述 符 会 被 关闭 。 


“ SFD_NONBLOCK: 控制 将 来 的 读 取 操作 ， 如 果 执 行 read 操 作 时 ， 并 没有 信号 到 来 ， 则 立刻 返回 失败 ， 并 设置 errno 为 EAGAIN。 


创建 文件 描述 符 后 ， 可 以 使 用 read 函 数 来 读 取 到 来 的 信号 。 提 供 的 缓冲 区 大 小 一 般 要 足以 放下 一 个 signalfd_siginfo 结 构 体 ， 该 结构 体 一 般 包 括 如 下 成 员 变 量 : 


struct signalfd siginfo { 
uint32 t ssi signo; 
int32 t ssi errno; 
int32 七 ssi code; 
uint32 t ssi pid; 
uint32 t ssi uidy 
int32 七 ssi fda; 
uint32 t ssi tidy 
uint32 t ssi band; 
uint32 t ssi overrun; 
uint32 t ssi trapno; 
int32 t ssi status; 
int32 七 ssi int; 
uint64 t ssi ptr; 


uint64 t ssi utime; 
uint64 t ssi stime; 
uint64 t ssi adqdr' 
uint8 七 pad[x]; 


这 个 结构 体 和 前 面 提 到 的 siginfo_t 结 构 体 几乎 可 以 一 一 对 应 。 含 义 和 siginfo_t 中 的 成 员 也 一 样 ， 在 此 就 不 再 效 述 了 。 


使 用 signalfd 来 接收 信号 的 方法 如 下 (此 处 忽略 了 一 些 异常 处 理 ) : 


sigprocmask (SIG BLOCK, gmask, NULL); 
sfd = signalfd(-1, gmask, NULL); 
for(;;) 
{ 
n = readl(sfd, &fd siginfo, sizeof (struct signalfd siginfo)); 
if(n != sizeof (struct signalfd siginfo)) | 
{ 
/*error handle*/} 
else{ 
/*process the signal*/} 


比较 推荐 的 做 法 是 用 文件 描述 符 signalfd 和 sigwaitinfo 两 种 方法 来 处 理 信号 ， 使 用 传统 信号 处 理 函 数 会 因为 异步 带 来 很 多 问题 ， 大 量 的 函数 因 不 是 异步 信号 安全 的 ， 而 无 法 用 于 信号 处 理 函 数 。 本 节 介 
绍 的 signalfd 方 法 更 加 值得 推荐 ， 因 为 方法 简单 ， 且 可 以 和 select、poll 和 epoll 函 数 配合 使 用 ， 非 常 灵 活 。 


6.12 ”信和 号 递送 的 顺序 


有 一 个 非常 有 意思 的 话题 ， 当 有 多 个 处 于 挂 起 状态 的 信号 时 ， 信 号 递送 的 顺序 又 是 如 何 的 呢 ? 


信号 实质 上 是 一 种 软 中 断 ， 中 断 有 优先 级 ， 信 号 也 有 优先 级 。 如 果 一 个 进程 有 多 个 未 决 信号 ， 那 么 对 于 同一 个 未 决 的 实时 信号 ， 内 核 将 按照 发 送 的 顺序 来 递送 信号 。 如 果 存 在 多 个 未 决 的 实时 信号 ， 那 
么 值 (或 者 说 编号 ) 越 小 的 越 优先 被 递送 。 如 果 既 存在 不 可 靠 信号 ， 又 存在 可 靠 信号 (实时 信号 ) ， 虽 然 POSIX 对 这 一 情况 没有 明确 规定 ， 但 Linux 系 统 和 大 多 数 遵循 POSIX 标 准 的 操作 系统 一 样 ， 即 将 优先 
递送 不 可 靠 信 号 。 


虽然 是 优先 递送 不 可 靠 信号 ， 但 在 不 可 靠 信号 中 ， 不 同 信号 的 优先 级 又 是 如 何 的 呢 ? 内 核 如 何 实现 这 些 这 些 优先 级 的 顺序 呢 ? 


内 核 选择 信号 递送 给 进程 的 流程 如 图 6-6 所 示 。 


get signal to deliver dequeue signal __dequeue signal 


图 6-6 ”内 核 选择 信号 的 流程 


下 面 来 分 析 相 关 的 代码 : 


int dequeue signal(struct task struct *tsk, 
Sigset t *mask, siginfo t *info) 
{ 
int signr; 
/* We only dequeue private signals from ourselves, we don't let 
* signalfd steal them 
六 


/ 
/* 线 程 私有 的 挂 起 信号 队列 优先 */ 
signr = dequeue signal (gtsk->pending, mask, info); 
if (!signr) { 
signr = dequeue signal (gtsk->signal->shared pending, 
mask, info); 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/... 


前 文 讲 过 ， 线 程 的 挂 起 信号 队列 有 两 个 : 线程 私有 的 挂 起 队列 (pending) 和 整个 线程 组 共享 的 挂 起 队列 (signal->shared_pending) 。 如 上 面 的 代码 所 示 ， 选 择 信号 的 顺序 是 优先 从 私有 的 挂 起 队列 
中 选择 ， 如 果 没有 找到 ， 则 从 线程 组 共享 的 挂 起 队列 中 选择 信号 递送 给 线程 。 当 然 选 择 的 时 候 需 要 考虑 线程 的 阻塞 掩 码 ， 属 于 阻塞 掩 码 集中 的 信号 不 会 被 选 出 。 


在 挂 起 信号 队列 (无论 是 共享 挂 起 队列 还 是 私有 挂 起 队列 ) 中 ， 选 择 信号 的 工作 交 给 了 next_signal 函 数 ， 其 逻辑 如 下 : 


int next signal (struct sigpending *pending, sigset t *mask) 
{ 
unsigned long i, *s, *m, x; 
int sig = 0; 
s = pending->signal .sig; 
m= mask->sig; 
/* 
* Handle the first word specially: it contains the 
* synchronous signals that need to be dequeued first. 
RA 


X= *s &~ *m; 
if (x) { 
/* 优 先 选择 同步 信号 ， 所 谓 同步 信号 集合 就 是 SIGSEGV、SIGBUS 等 六 种 信号 */ 
if (x & SYNCHRONOUS MASK) 
x &= SYNCHRONOUS MASK; 
/* 小 信号 值 优先 递送 的 算法 */ 
Sig = ffz (“x) + 1 
return sig; 


Switch ( NSIG WORDS) { 


default: 
for (i = 1; i < NSIG WORDS; ++i) { 
X= x++S &~ *++Hm; 
if (lx) 
continue; 
sig = ffz(~x) + i* NSIG BPW + 1; 
break; 
} 
break; 
Case 2: 
x= s[1l] g&~ m[1]; 
i£ (lx) 
break; 
sig = ffz(~x) + NSIG BPW + 1; 
break; 
Case 1: 


/* Nothing to do */ 
break; 


} 


return sig; 


} 

#define SYNCHRONOUS MASK \ 
(sigmask (SIGSEGV) | sigmask(SIGBUS) | sigmask(SIGILL) | \ 
sigmask (SIGTRAP) | sigmask (SIGFPE) | sigmask (SIGSYS)) 


由 于 不 同 平台 long 的 长 度 不 同 ， 所 以 算法 略 有 不 同 ， 但 是 思想 是 一 样 的 ， 如 下 。 
1) 出 现在 阻塞 掩 码 集中 的 信号 不 能 被 选 出 。 


2) 优先 选择 同步 信号 ， 所 谓 同步 信号 指 的 是 以 下 6 种 信号 : 


{SIGSEGV, SIGBUS, SIGILL, SIGTRAP, SIGFPE, SIGSYS}, 


这 6 种 信号 都 是 与 硬件 相关 的 信号 。 
3) 如 果 没有 上 面 6 种 信号 ， 非 实时 信号 优先 ; 如 果 存 在 多 种 非 实时 信号 ， 小 信号 值 的 信号 优先 。 
4) 如 果 没 有 非 实时 信号 ， 那 么 实时 信号 按照 信号 值 递送 ， 小 信号 值 的 信号 优先 递送 。 


通过 下 面 的 测试 程序 来 验证 是 否 如 此 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
#include <signal.h> 
#include <string.h> 
#include <errno.h> 
static int sig cnt [NSIG]; 
static number= 0 ; 

int sigorder[128]= {0}; 
#define MSG "#%d:receiver signal %d\n" 
void handler (int signo) 


{ 
/* 此 处 最 好 判断 一 下 nurber 的 值 ， 不 要 超出 数组 的 长 度 */ 
sigorder [number++] = signo; 
} 
int main(int argc,char* argv[]) 
{ 
jint 和 1 
int k 
sigset t blockall mask ; 
sigset t pending mask ; 
sigset t empty mask ; 
struct sigaction sa; 
sigfillset (gblockall mask); 
#ifdef USE SIGACTION 
sa.sa handler = handler; 
sa.sa mask = blockall mask ; 
sa.sa flags = SA RESTART ; 
#endif 
printf ("%s:PID is %d\n",argv[0],getpid()); 
for(i = 1; i < NSIG; i++) 
{ 


= 0; 
= 0; 


if(i == SIGKILL || i == SIGSTOP) 
continue; 
#ifdef USE SIGACTION 
if (sigaction (i, &sa, NULL) !=0) 
#else 
if (signal (i,handler)=— SIG ERR) 
#endif 
{ 
fprintf (stderr, "sigaction for signo(%d) failed (%s)\n",i, strerror (errno)); 
return 一 1 
} 
} 
int sleep time = atoi (argv[1]); 
if (sigprocmask (SIG SETMASK, &blockall mask,NULL) 一 -1) 
{ 


fprintf (stderr, "setprocmask to block all signal failed(%s)\n",strerror (errno)); 
return -2; 


printf ("I will sleep %d second\n", sleep time); 
sleep (sleep time); 
sigemptyset (&empty mask); 
if (sigprocmask (SIG SETMASK, tempty mask,NULL) 一 -1) 
{ 
fprintf (stderr, "setprocmask to release all signal failed(%s)\n",strerror (errno)); 
return -3; 
} 
sleep (3) 
for(i = 0 ; i< number ; i++) 
{ 
if(sigorder[i] != 0) 
{ 
printf ("#%d: signo=%d\n",i,sigorder[i]); 
} 
} 


return 0; 


注意 上 面 的 代码 必须 要 定义 USE_SIGACTION 宏 ， 因 为 在 执行 信号 处 理 函 数 期 间 ， 需 要 屏蔽 掉 其 他 信号 ， 和 否则 信号 处 理 函 数 被 其 他 信号 打 断 ， 会 导致 无 法 得 到 信号 的 真实 递送 顺序 。 


上 述 程序 首先 会 安装 所 有 信号 的 信号 处 理 函 数 (SIGKILL 和 SIGSTOP 除 外 ) ， 然 后 阻塞 所 有 信号 ， 之 后 睡眠 一 段 时 间 ， 在 这 段 时 间 内 ， 通 过 命令 向 进程 发 送 各 种 信号 ， 一 旦 睡眠 结束 ， 解 除 阻塞 ， 信 号 
就 会 被 递送 给 进程 ， 进 程 就 会 执行 信号 处 理 函 数 。 信 号 处 理 函 数 是 精心 定制 的 ， 按 照 递 送 的 顺序 ， 被 记录 在 静态 数组 中 。 只 要 按 顺 序 打 印 出 信号 的 值 ， 就 可 获得 信号 的 递送 顺序 : 


gcc -o sigaction delivery order -DUSE SIGACTION signal delivery order.c 


向 进程 发 送信 号 的 脚本 如 下 : 


#!/bin/bash 
./sigaction delivery order 30 & 
signal pig=5! 
sleep 2 

kill -10 $signal pid 
kill -3 $signal pid 
kil1 -12 $signal pid 
kill -11 S$signal pid 
kill -39 $signal pid 
kill -2 $signal pid 
kill -5 $signal pid 
kill -4 S$signal pid 
kill -36 $signal pid 
kill -24 $signal pid 
kil1 -38 $signal pid 
kill -37 S$signal pid 
kill -31 $signal pid 


kill -8 $signal pid 
kill -7 $signal pid 
/tkill -p $signal pid -s 44 


tkill 是 发 给 具体 线程 的 ， 信 号 会 挂 在 线程 私有 的 挂 起 信号 队列 上 ， 所 以 会 优先 递送 ， 


因此 44 号 信号 应 该 第 一 个 被 递送 ; 其 他 的 信号 中 4=SIGILL、5=SIGTRAP、7=SIGBUS、8=SIGFPE、 


11=SIGSEGV、31=SIGSYS， 这 些 都 属于 同步 信号 集合 ， 紧 随 44 号 信号 之 后 ， 按 照 从 小 到 大 的 顺序 递送 ; 2、3、10、12、24 作 为 非 实时 信号 ， 再 随 其 后 被 递送 ;最 后 是 实时 信号 ， 按 照 从 小 到 大 的 顺序 


( 即 36、37、38、39) ， 依 次 递送 给 进程 。 


测试 的 输出 结果 如 下 所 示 : 


root@manu-hacks:~/code/c/self/signal# ./test order.sh 
./sigaction delivery order:PID is 21897 加 
sigaction for signo (32) failed (Invalid argument) 
sigaction for signo (33) failed (Invalid argument) 
I will sleep 30 second 
root@manu-hacks:~/code/c/self/signal# #0: signo=44 
#1: signo=4 

#2: signo=5 

#3: signo=7 

#4: signo=8 

#5: signo=11 

#6: signo=31 

#7: signo=2 

#8: signo=3 

#9: signo=10 

#10: signo=12 

#11: signo=24 

#12: signo=36 

#13: signo=37 

#14: signo=38 

#15: signo=39 


和 预想 的 一 样 ， 信 号 就 是 按照 这 四 个 优先 级 递送 给 进程 的 。 


6.13 ”异步 信号 安全 


设计 信号 处 理 函 数 是 一 件 很 头疼 的 事情 ， 原 因 就 藏 在 图 6-7 中 。 当 内 核 递送 信号 给 进程 时 ， 进 程 正 在 执行 的 指令 序列 就 会 被 中 断 ， 转 而 执行 信和 号 处 理 函 数 。 待 信和 号 处 理 函 数 执行 完毕 返回 (如果 可 以 返回 


的 话 ) ， 则 继续 执行 被 中 断 的 正常 指令 序列 。 此 时 ， 问 题 就 来 了 ， 同 一 个 进程 中 出 现 了 两 条 执行 流 ， 而 两 条 执行 流 正 是 信号 机 制 众多 问题 的 根源 。 


主 程序 


图 6-7 进程 收 到 信号 的 处 理 流程 


在 信号 处 理 函 数 中 有 很 多 函数 都 不 可 以 使 用 ， 原 因 就 是 它们 并 不 是 异步 信号 安全 的 ， 强 行使 
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引入 多 线程 后 ， 很 多 库 函 数 为 了 保证 线程 安全 ， 不 得 不 使 用 锁 来 保护 临界 区 


( 见 表 6-17) 。 


比如 malloc 就 是 一 种 典型 的 场景 。 


这 些 不 安全 的 函数 隐患 重重 ， 还 可 能 


带 来 很 诡异 的 bug。 


号 处 理 浮 数 
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表 6-17 锁 来 保证 线程 安全 


时 间 线程 1 执行 流 线程 2 执行 流 


和 二 流 
加 锁 保护 临界 区 的 方法 ， 虽 然 不 可 重 入 ， 却 是 实现 线程 安全 的 一 种 选择 。 但 是 这 种 方法 无 法 保证 异步 信号 安全 见 表 6-18。 
表 6-18 锁 无 法 保证 异步 信号 安全 


还 是 以 malloc 为 例 ， 如 果 主 程序 执行 流 调用 malloc 已 经 持 有 了 锁 ， 但 是 尚未 完成 临界 区 的 操作 ， 这 时 候 被 信号 中 断 ， 转 而 执行 信号 处 理 函 数 ， 如 果 信 和 号 处 理 函 数 中 再 次 调用 malloc 加 锁 ， 就 会 发 生死 


锁 。 


从 上 面 的 讨论 可 以 看 出 ， 异 步 信号 安全 是 一 个 很 苛刻 的 条 件 。 事 实 上 只 有 非常 有 限 的 函数 才能 保证 异步 信号 安全 。 
一 般 说 来 ， 不 安全 的 函数 大 抵 上 可 以 分 为 以 下 几 种 情况 : 

“ 使 用 了 静态 变量 ， 典 型 的 是 strtok、localtime 等 函数 。 

:使 用 了 malloc 或 free 函 数 。 


' 标准 I/O 函 数 ， 如 Printf。 


实 这 是 不 对 的 ， 在 真正 的 


读者 可 以 通过 man 7 signal 的 Async-signal-safe functions 小 节 查 看 异步 信号 安全 的 函数 列表 ， 在 此 就 不 罗列 了 。 本 书 中 有 很 多 地 方 在 信号 处 理 函 数 中 调用 了 printf 函 数 ， 
工程 代码 中 ， 是 不 允许 非 异 步 信 号 安全 的 函数 出 现在 信号 处 理 函 数 中 的 。 


在 正常 程序 流 里 面 工作 得 很 正常 的 函数 ， 在 异步 信号 的 条 件 下 ， 会 出 现 很 诡异 的 bug。 这 种 bug 的 触发 ， 经 常 依 赖 信号 到 达 的 时 间 、 进 程 调度 等 不 可 控制 的 时 序 条 件 ， 很 难 重 现 。 因 此 编写 信号 处 理 函 
数 就 像 将 船 驶 入 暗礁 丛生 的 海域 ， 不 可 不 小 心 。 


既然 陷阱 重重 ， 那 该 如 何 使 用 信号 机 制 呢 ? 


1. 轻 量 级 信号 处 理 函 数 


这 是 一 种 比较 常见 的 做 法 ， 就 是 信号 处 理 函 数 非 常 得， 基本 就 是 设置 标志 位 ， 然 后 由 主 程序 执行 流 根据 标志 位 来 获知 信号 已 经 到 达 。 


这 种 做 法 可 用 伪 代 码 的 形式 表示 ， 如 下 : 


volatile sig atomic t get SIGINT = 0; 
/* 信 号 处 理 函 数 */ 
void sigint handler (int sig) 
switch (sig){ case SIGINT: get_SIGINT = 1 break; http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Tex 


} 
/* 主 程序 流 是 一 个 循环 */ 
while (true) 


{ 
if (get_ SIGINT==1) 
/* 在 主 程序 流 中 处 理 SIGINT*/ 


job = get next job(); 
do single job (job); 


这 是 一 种 常见 的 设计 ， 信 号 处 理 函 数 非常 简单 ， 非 常 轻 量 ， 仅 仪 是 设置 了 一 个 标志 位 。 程 序 的 主流 程 会 周期 性 地 检查 标志 ， 以 此 来 判断 是 否 收 到 某 信号 。 若 收 到 信号 ， 则 执行 相应 的 操作 ， 通 常 也 会 将 


标志 重新 清 零 。 


一 般 来 讲 定义 标志 的 时 候 ， 会 将 标志 的 类 型 定义 成 : 


volatile sig atomic t flag; 


sig_atomic t 是 C 语 言 标 志 定 义 的 一 种 数据 类 型 ， 该 数据 类 型 可 以 保证 读 写 操作 的 原子 性 。 而 volatile 关 键 字 则 是 告诉 编译 器 ，flag 的 值 是 易 变 的 ， 每 次 使 用 它 的 时 候 ， 都 要 到 flag 的 内 存 地 址 去 取 。 之 所 
以 这 么 做 ， 是 因为 编译 器 会 做 优化 ， 编 译 器 如 果 发 现 两 次 取 flag 值 之 间 ， 并 没有 代码 修改 过 flag， 就 有 可 能 将 上 一 次 的 flag 值 拿 来 用 。 而 由 于 主 程序 和 信号 处 理 不 在 一 个 控制 流 之 中 ， 因 此 编译 器 几乎 总 是 会 
做 这 种 优化 ， 这 就 违背 了 设计 的 本 意 。 因 此 使 用 volatile 来 保证 主 程序 流 能 够 看 到 信号 处 理 函 数 对 flag 的 修改 。 


2. 化 异步 为 同步 


由 于 信号 处 理 函 数 的 存在 ， 进 程 会 同时 存在 两 条 执行 流 ， 这 带 来 了 很 多 问题 ， 因 此 操作 系统 也 想 了 一 些 办 法 ， 就 是 前 面 提 到 的 sigwait 和 signalfd 机 制 。 


sigwait 的 设计 本 意 是 同步 地 等 待 信号 。 在 执行 流 中 ， 执 行 sigwait 函 数 会 陷入 阻塞 ， 直 到 等 待 的 信号 降临 。 一 般 来 讲 ，sigwait 用 在 多 线程 的 程序 中 ， 而 等 待 信号 降临 的 使 命 ， 一 般 落 在 主线 程 身上 。 
体 做 法 如 下 : 


sigfillset (&set all); 
sigprocmask (SIG_SETMASK, &set all,NULL); 
for (;;) 
{ 
ret = sigwait (&set all,&signo) ; 
/* 处 理 收 到 的 signox 厂 
} 


sigwait 虽 然 化 异步 为 同步 ， 但 是 也 废 掉 了 一 条 执行 流 。signalfd 机 制 则 提供 了 另外 一 种 思路 : 


#include <sys/signalfd.h> 
int signalfd(int fd，const sigset t *mask, int flags); 


具体 步骤 如 下 : 


1) 将 关心 的 信号 放 入 集合 。 


2) 调用 sigprocmask 函 数 ， 阻 塞 关 心 的 信号 


3) 调用 signalfd 函 数 ， 返 回 一 个 文件 描述 符 。 


有 了 文件 描述 符 ， 就 可 以 使 用 select/poll/epoll 等 |/O 多 路 复 用 函数 来 监控 它 。 这 样 ， 当 信号 来 临时 ， 就 可 以 通过 read 接 口 来 获取 到 信号 的 相关 信息 : 


struct signalfd info signalfd info; 
read (signal . Ea &signalfd : info, sizeof (struct signalfdqd . info)); 


在 引入 signalfd 机 制 以 前 ， 有 一 种 很 有 意思 的 化 异步 为 同步 的 方式 被 广泛 使 用 。 这 种 技术 被 称 为 “self-pipe trick”。 简 单 地 讲 ， 就 是 打开 一 个 无 名 管道 ， 在 信号 处 理 函 数 中 向 管道 写 入 一 个 字 节 (write 
函数 是 异步 信号 安全 的 ) ， 而 主 程序 从 无 名 管道 中 读 取 一 个 字 节 。 通 过 这 种 方式 也 做 到 了 在 主 程序 流 中 处 理 信号 的 目的 。 


《Linux 高 性 能 服务 器 编程 》 一 书 中 ， 在 “统一 事件 源 ” 一 节 中 详细 介绍 了 这 个 技术 。 不 过 使 用 的 不 是 无 名 管道 ， 而 是 socketpair 函 数 。 


static int pipefd[2] 
/* 信 号 处 理 函 数 中 ， 向 socketpair 中 写 入 1 个 字 节 ， 即 信号 值 */ 
void sig handler (int sig) 
{ 

int save errno = errno ; 

int msg = sig, 

send (asd 下， (char*) gmsg, 1,0); 

errno = save errno ; 
} 
ret = socketpair (PF UNIX,SOCK STREAM, 0,Pipefd) ， 
/* 当 I/0 多 路 复 用 函数 ， 侦 测 到 pipefQ[0] ， 有 内 容 到 来 时 ， 则 使 用 recv 读 取 */ 
char signals[1024]; 
ret = recv (pipefd[0],signals, sizeof (signals),0); 


将 socketpair 的 一 端 置 于 select/polyepoll 等 函数 的 监控 下 ， 当 信和 号 到 达 的 时 候 ， 信 号 处 理 函 数 会 往 socketpair 的 另 一 端 写 入 1 个 字 节 ， 即 信号 的 值 。 此 时 ， 主 程序 的 select/polyepoll 函 数 就 能 侦 测 到 此 
事 ， 对 socketpair 执 行 recv 操 作 ， 获 取 到 信号 处 理 函 数 写 入 的 信号 值 ， 进 行 相应 的 处 理 。 


6.14 总 结 


Linux 的 signal 机 制 是 一 种 原始 的 进程 间 通 信 机 制 ， 传 递 的 信息 有 限 ， 很 难 传递 复杂 的 消息 ， 加 上 信号 处 理 函 数 和 进程 处 于 两 条 执行 逻辑 流 ， 会 带 来 函数 的 重 入 问题 ， 因 此 signal 机 制 不 适合 作为 进程 间 
通信 的 主要 手段 。 但 是 信号 又 不 是 完全 无 用 的 ， 对 于 某 些 不 频繁 发 生 的 异步 事件 ， 还 是 可 以 使 用 signal 来 通知 进程 。 


第 7 章 ”理解 Linux 线 程 (1) 


相对 于 Unix 操 作 系 统 40 多 年 的 光辉 历史 ， 线 程 算是 出 现 得 比较 晚 的 。 在 20 世 纪 90 年 代 线 程 才 慢 慢 流行 起 来 ， 而 POSIX threads 标 准 的 确立 已 经 是 1995 年 的 事情 了 。 


Unix 原 本 是 不 支持 线程 的 ， 线 程 概念 的 引入 给 Unix 家 族 带 来 了 一 些 麻 烦 ， 很 多 函数 都 不 是 线程 安全 (thread-safe) 的 ， 需 要 重新 定义 ， 信 号 机 制 在 线程 加 入 以 后 也 变 得 更 加 复杂 了 。 


在 单 核 CPU 时 代 ， 多 线程 的 需求 并 没有 那么 强烈 ， 但 是 随 着 时 间 的 流逝 ， 事 情 发 生 了 变化 。2005 年 3 月 ，Herb Sutter 在 Dobb'′ s Journal 上 发 表 了 《The Free Lunch is over: A Fundamental Turn 
Toward Concurrency in Software》 一 文 ， 文 章 分 析 处 理 器 厂商 改善 CPU 性 能 的 传统 方法 ， 如 提升 时 钟 速度 和 指令 吞吐 量 ， 基 本 已 经 走 到 了 尽头 ， 处 理 器 开始 向 超 线 程 和 多 核 架构 靠拢 ， 多 核 的 时 代 已 然 
来 临 。 为 了 让 代码 运行 得 更 快 ， 单 纯 地 依赖 更 快 的 硬件 已 经 无 法 满足 要 求 。 程 序 员 需 要 编写 并 发 代码 ， 以 便 充 分 发 挥 多 核 处 理 器 的 强大 功能 ， 并 且 使 程序 的 性 能 得 到 提升 。 


7.1 ”线程 与 进程 


在 Linux 下 ， 程 序 或 可 执行 文件 是 一 个 静态 的 实体 ， 它 只 是 一 组 指令 的 集合 ， 没 有 执行 的 含义 。 进 程 是 一 个 动态 的 实体 ， 有 自己 的 生命 周期 。 线 程 是 操作 系统 进程 调度 器 可 以 调度 的 最 小 执行 单元 。 进 程 
和 线程 的 关系 如 图 7-1 所 示 。 


单线 程 进程 多 线程 进程 


多 个 单线 程 进程 多 个 多 线程 进程 


图 7-1 线程 和 进程 的 关系 
一 个 进程 可 能 包含 多 个 线程 ， 传 统 意义 上 的 进程 ， 不 过 是 多 线程 的 一 种 特例 ， 即 该 进程 只 包含 一 个 线程 。 
为 什么 要 有 多 线程 ? 


举 个 生活 中 的 例子 ， 这 就 好 比 去 银行 办 理 业务 。 到 达 银 行 后 ， 首 先 找到 领导 的 机 器 领取 一 个 号 码 ， 然 后 坐 下 来 安心 等 待 。 这 时 候 你 一 定 希 望 ， 办 理 业 务 的 窗口 越 多 越 好 。 如 果 把 整个 营业 大 厅 当 成 一 个 
进程 的 话 ， 那 么 每 一 个 窗口 就 是 一 个 工作 线程 。 


这 种 场景 在 Linux 中 屡见不鲜。 编程 的 思想 (如 图 7-2 所 示 ) 和 生活 中 解决 问题 的 想法 总 是 类 似 的 。 
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图 7-2 ”Master-Worker 并 发 模型 


WORKER THREAD 


有 人 说 不 必 非 要 使 用 线程 ， 多 个 进程 也 能 做 到 这 点 。 的 确 如 此 。Unix/Linux 原 本 的 设计 是 没有 线程 的 ， 类 Unix 系 统 包 括 Linux 从 设计 上 更 倾向 于 使 用 进程 ， 反 倒是 Windows 因 为 创建 进程 的 开销 巨大 ， 
而 更 加 钟爱 线程 。 


UD 


那么 线程 是 不 是 一 种 设计 上 的 宛 余 呢 ? 其 实 不 是 这 样 的 。 


进程 之 间 ， 彼 此 的 地 址 空间 是 独立 的 ， 但 线程 会 共享 内 存 地 址 空间 (如 图 7-3 所 示 ) 。 同 一 个 进程 的 多 个 线程 共享 一 份 全 局 内 存 区 域 ， 包 括 初始 化 数据 段 、 未 初始 化 数据 段 和 动态 分 配 的 堆 内 存 段 。 
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线程 创建 进程 创建 


图 7-3 ”线程 之 间 共 享 资源 
这 种 共享 给 线程 带 来 了 很 多 的 优势 : 
“ 创建 线程 花费 的 时 间 要 少 于 创建 进程 花费 的 时 间 。 
“ 终止 线程 花费 的 时 间 要 少 于 终止 进程 花费 的 时 间 。 
“ 线程 之 间 上 下 文 切 换 的 开销 ， 要 小 于 进程 之 间 的 上 下 文 切换 。 


“ 线程 之 间 数 据 的 共享 比 进程 之 间 的 共享 要 简单 。 


下 面 用 一 个 简单 的 实验 ， 来 比较 下 创建 10 万 个 进程 和 10 万 个 线程 各 自 的 开销 。 


创建 进程 的 测试 程序 将 会 执行 如 下 操作 : 


fork 函 数 创建 子 进 程 ， 子 进程 无 实际 操作 ， 调 用 exit 函 数 立 刻 退出 ， 父 进程 等 待 子 进 程 退 出 。 


| 


1) 


2) 重复 执行 步骤 1， 共 执行 10 万 次 。 


创建 线程 的 测试 程序 则 执行 如 下 操作 : 


1) 调用 pthread_create 创 建 线程 ， 线 程 无 实际 操作 ; 调用 pthread_exit 函 数 ， 立 刻 退出 ; 主线 程 调用 pthread join 函数 等 待 线程 退出 。 


2) 重复 执行 步骤 1， 共 执行 10 万 次 。 


服务 器 CPU 的 情况 为 : Intel 2.1GHz Xeon E5-2620 (24 核 ) ， 下 面 看 下 测试 结果 ， 见 表 7-1。 


表 7-1 创建 线程 或 子 进 程 之 前 无 内 存 分 配 ， 程 序 耗 时 比较 


线程 测试 


进程 测试 


从 测试 结果 上 看 ， 创 建 线程 花费 的 时 间 约 是 创建 进程 花费 时 间 的 五 分 之 一 。 


在 上 述 测试 中 ， 调 用 fork 函 数 和 pthread_create 函 数 之 前 ， 并 没有 分 配 大 块 内 存 。 一 旦 分 配 大 块 内 存 ， 考 虑 到 创建 进程 需要 拷贝 页 表 ， 而 创建 线程 不 需要 ， 则 两 者 之 间 效 率 上 的 差距 会 进一步 拉 大 ， 见 
表 7-2。 


表 7-2 创建 线程 或 子 进程 之 前 ， 堆 上 分 配 了 40MB 空 间 


进程 测试 线程 测试 


100.631s 


线程 间 的 上 下 文 切换 ， 指 的 是 同一 个 进程 里 不 同 线程 之 间 发 生 的 上 下 文 切换 。 由 于 线程 原本 属于 同一 个 进程 ， 它 们 会 共享 地 址 空间 ， 大 量 资源 共享 ， 切 换 的 代价 小 于 进程 之 间 的 切换 是 自然 而 然 的 事 


情 。 

线程 之 间 通 信 的 代价 低 于 进程 之 间 通 信 的 代价 。 从 生活 的 角度 来 类 比 ， 部 门 内 的 协作 总 是 要 比 跨 部 门 的 协作 来 得 顺 溜 。 线 程 共 享 地 址 空间 的 设计 ， 让 多 个 线程 之 间 的 通信 变 得 非常 简单 。 一 个 进程 内 的 
多 个 线程 ， 就 像 一 个 软件 研发 小 组 内 部 的 不 同 员 工 ， 共 享 代码 、 服 务 器 、 打 印 机 、 资 料 ， 彼 此 之 间 有 分 工 协作 ， 沟 通 协作 成 本 比较 低 。 进 程 之 间 的 通信 代价 则 要 高 很 多 。 进 程 之 间 不 得 不 采用 一 些 进程 间 通 
信 的 手段 (如 管道 、 共 享 内 存 及 信号 量 等 ) 来 协作 。 


前 面 是 从 操作 系统 的 角度 来 分 析 线 程 优势 的 ， 从 用 户 或 应 用 的 视角 来 分 析 ， 多 线程 的 程序 也 有 很 多 的 优势 。 
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1. 发 挥 多 核 优 势 ， 充 分 利用 CPU 资源 


CPU 是 一 种 资源 ， 如 果 一 方面 CPU 资源 大 量 闲置 ， 处 于 IDLE 的 状态 ， 另 一 方面 很 多 任务 得 不 到 及 时 的 处 理 ， 处 于 排队 等 待 的 状态 ， 这 就 表明 资源 没有 得 到 有 效 的 利用 ， 本 质 上 是 一 种 浪费 。 


可 以 想象 如 下 场景 : 你 在 火车 站 买 票 ，10 个 售票 窗口 ， 有 9 个 窗口 的 售票 员 和 暂停 服 务 ， 但 是 这 9 个 售票 员 却 在 喷 瓜 子 ， 玩 手机 ， 大 厅 里 排队 者 有 几 百 人 。 
你 排 在 最 后 ! ! ! 


你 是 不 是 很 愤怒 。 是 的 ,编程 领 域 也 一 样 ， 如 果 存 在 多 个 相同 的 任务 ， 彼 此 之 间 并 行 不 悖 ， 互 不 依赖 (或 者 依赖 性 很 小 ) ， 那 么 启动 多 个 线程 并 发 处 理 ， 是 一 个 不 错 的 选择 (如 图 7-4 所 示 ) 。 虽 然 对 每 
个 任务 而 言 ， 处 理 的 时 间 并 没有 缩短 ， 但 是 在 相同 时 间 内 ， 处 理 了 更 多 的 任务 。 
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图 7-4 并 发 执行 ， 充 分 利用 CPU 资源 


2. 更 自然 的 编程 模型 


有 很 多 程序 ， 天 生 就 适合 用 多 线程 。 将 工作 切 分 成 多 个 模块 ， 并 为 每 个 模块 分 配 一 个 或 多 个 执行 单元 ， 更 符合 人 类 解决 问题 的 思路 。 


以 文本 编辑 程序 为 例 ， 用 户 的 输入 需要 及 时 响应 ， 必 须要 有 线程 来 监控 鼠标 和 键盘 ; 如 果 用 户 删 除了 第 一 页 的 某 一 行 ， 后 面 很 多 页 的 格式 都 会 受到 影响 ， 这 时 就 需要 有 文本 格式 化 线程 在 后 台 执行 格式 
处 理 ; 很 多 文本 编辑 软件 都 有 自动 保存 的 功能 ， 第 三 个 线程 会 周期 性 地 将 文件 内 容 写 入 磁盘 ; 很 多 文本 编辑 软件 都 有 检测 拼写 错误 的 功能 ， 或 许 我 们 需要 第 四 个 线程 …… 


上 述 的 分 工 是 很 自然 的 事情 ， 想 象 一 下 如 果 将 所 有 工作 都 放 在 一 个 单线 程 的 进程 里 面 ， 那 么 该 进程 是 不 是 就 不 得 不 处 理 庞杂 而 又 繁 芜 的 事情 ? 程序 结构 也 就 会 变 得 异常 复杂 。 
没有 银 弹 。 多 线程 带 来 优势 的 同时 ， 也 存在 一 些 浆 端 。 
1) 多 线程 的 进程 ， 因 地 址 空间 的 共享 让 该 进程 变 得 更 加 脆弱 


多 个 线程 之 中 ， 只 要 有 一 个 线程 不 够 健壮 存在 bug (如 访问 了 非法 地 址 引发 的 段 错误 ) ， 就 会 导致 进程 内 的 所 有 线程 一 起 完蛋 。 正 所 谓 : 


窗 巢 之 下 ， 安 有 完 匈 


城 门 失 火 ， 殊 及 池 鱼 


相 比 之 下 ， 进 程 的 地 址 空间 互相 独立 ， 彼 此 隔离 得 更 加 彻底 。 多 个 进程 之 间 互 相 协同 ， 一 个 进程 存在 bug 导 致 异常 退出 ， 不 会 影响 到 其 他 进程 。 


2) 线程 模型 作为 一 种 并 发 的 编程 模型 ， 效 率 并 没有 想象 的 那么 高 ， 会 出 现 复杂 度 高 、 易 出 错 、 难 以 测试 和 定位 的 问题 


目前 存在 的 并 发 编程 ， 基 本 可 以 分 成 两 类 : 


“ 消息 传递 式 


线程 模型 采用 的 是 第 一 种 。 从 现在 开始 ， 停 止 幻想 ， 欢 迎 来 到 真实 的 世界 。 


一 个 程序 员 碰 到 了 一 个 问题 ， 他 决定 用 多 线程 来 解决 。 现 在 两 个 他 问题 了 有 11 。 


在 真实 的 场景 中 ， 多 线程 编程 是 很 复杂 的 。 前 面 所 说 的 多 个 任务 并 行 不 悖 ， 互 不 依赖 ， 在 大 多 数 情况 下 只 是 一 种 美好 的 幻想 。 


一 一 关于 线程 的 冷笑 话 


首先 ， 多 个 线程 之 间 ， 存 在 负载 均衡 的 问题 ， 现 实 中 很 难 将 全 部 任务 等 分 给 每 个 线程 。 想 象 一 下 ， 如 果 存 在 10 个 线程 ， 一 个 线程 承担 了 90% 的 任务 ，9 个 线程 承担 了 10% 的 任务 ， 整 体 的 效率 立刻 就 降 


了 下 来 。 


有 人 说 ， 人 怎么 会 有 这 么 思 套 的 设计 呢 。 试 想 如 下 场景 : 你 需要 用 支持 10 个 并 发 线程 的 服务 器 去 计算 1~1010 以 内 的 所 有 素数 ， 要 怎么 设计 ? 首先 进入 脑海 的 第 一 


应 是 不 是 将 1~ 1010 这 个 范围 平均 分 成 


10 份 ， 每 一 份 有 10? 个 数 ，10 个 线程 分 别 查找 范围 内 的 素数 ?这 就 是 糟糕 的 设计 ， 尽 管 每 个 线程 负责 的 范围 是 相同 的 ， 但 是 每 个 线程 的 负载 并 不 均匀 ， 因 为 判断 一 个 较 大 的 数 是 不 是 素数 ， 通 常 要 比 判断 较 


小 的 数 所 花费 的 时 间 更 长 。 当 然 这 个 例子 有 比较 妥善 的 解决 方案 ， 但 是 在 很 多 情况 下 ， 很 难 将 负载 均匀 地 分 配给 各 个 线程 。 


其 次 ， 多 个 线程 的 任务 之 间 还 可 能 存在 顺序 依赖 的 关系 ， 一 个 线程 未 能 完成 某 些 操作 之 前 ， 其 他 线程 不 能 或 不 应 该 运行 。 


多 个 线程 之 间 需 要 同步 。 想 象 如 下 场景 : 你 和 你 的 朋友 合租 一 套 公寓 ， 这 套 公寓 只 有 1 个 卫生 间 。 当 你 朋友 正在 使 用 卫生 间 的 时 候 ， 你 就 无 法 使 用 了 。 多 线程 也 会 遇 到 类 似 的 问题 。 多 个 线程 生活 在 进程 
地 址 空间 这 同一 个 屋 榴 下 ， 若 存在 多 个 线程 操作 共享 资源 ， 则 需要 同步 ， 否 则 可 能 会 出 现 结果 错误 、 数 据 结 构 遭 到 破坏 甚至 是 程序 崩溃 等 后 果 。 因 此 多 线程 编程 中 存在 临界 区 的 概念 ， 临 界 区 的 代码 只 允许 
一 个 线程 执行 ， 线 程 提 供 了 锁 0 机制 来 保护 临界 区 。 当 其 他 线程 来 到 临界 区 却 无 法 申请 到 锁 时 ， 就 可 能 陷入 阻塞 ， 不 再 处 于 可 执行 状态 ， 线 程 可 能 不 得 不 让 出 CPU 资源 。 如 果 设 计 不 合理 ， 临 界 区 非常 多 ， 线 


程 之 间 的 竞争 异常 激烈 ， 频 繁 地 上 下 文 切换 也 会 导致 性 能 急剧 恶化 。 


上 面 两 种 情况 的 存在 ， 决 定 了 多 线程 并 非 总 是 处 于 并 发 的 状态 ， 加 速 也 并 非 线性 的 。4 个 工作 线程 未 必 能 带 来 4 倍 的 效率 ， 加 速 比 取决 于 可 以 串 行 执行 的 部 分 在 全 部 工作 中 所 占 的 比例 。 


有 人 曾经 这 样 打 比方 : 多 进程 属于 立体 交通 系统 ， 虽 然 造价 高 ， 上 坡 下 坡 比较 耗 油 ， 但 是 堵车 少 ， 多 线程 属于 平面 交通 系统 ， 造 价 低 ， 但 是 红绿灯 太 多 ， 老 堵车 。 个 人 觉得 这 个 比方 是 很 有 道理 的 。 


多 线程 模型 的 复杂 度 更 是 不 容 小 凯 。 很 多 人 诉 病 多 线程 模型 ， 就 在 于 它 不 符合 人 的 心智 模型 。 俗 语 道 ， 一 心 不 可 两 用 ， 人 很 难 同时 控制 多 条 走 走 停 停 ， 彼 此 又 有 交互 和 同步 的 控制 流 。 由 于 进程 调度 的 
无 序 性 ， 严 格 来 说 多 线程 程序 的 每 次 执行 其 实 并 不 一 样 ， 很 难 穷 举 所 有 的 时 序 组 合 ， 所 以 我 们 永远 无 法 宣称 多 线程 的 程序 经 过 了 充分 的 测试 。 在 某 些 特殊 时 序 的 条 件 下 ，bug 可 能 会 出 现 ， 这 种 bug 难 以 复 


现 ， 而 且 难 以 排查 。 所 以 编程 时 ， 需 要 谨慎 地 设计 ， 以 确保 程序 能 够 在 所 有 的 时 序 条 件 下 正常 运行 。 


对 于 多 线程 编程 ， 还 存在 四 大 陷阱 ， 一 不 小 心 就 可 能 落 入 陷阱 之 中 。 这 四 个 陷阱 分 别 是 : 


' 死 锁 (Dead Lock) 


' 馈 死 (Starvation) 


* 活 锁 (Live Lock) 


' 竞 态 条 件 (Race Condition) 


客观 地 说 ， 多 线程 编程 的 难度 要 更 大 一 些 ， 需 要 程序 员 更 加 小 心 ， 更 加 谨 愤 。 当 你 需要 使 用 多 线程 的 时 候 ， 一 定 要 花费 足够 的 时 间 小 心地 规划 每 个 线程 的 分 工 ， 尽 可 能 地 减少 线程 之 间 的 依赖 。 良 好 的 
设计 ， 合 理 的 分 工 是 多 线程 编程 至 关 重 要 的 环节 。 若 初期 随意 地 设计 线程 的 分 工 ， 那 么 在 最 后 ， 你 很 有 可 能 不 得 不 花费 大 量 的 时 间 来 优化 性 能 ， 定 位 bug， 甚 至 不 得 不 推倒 重 来 。 


四 此 处 的 语序 混乱 是 故意 的 ， 瞳 讽 由 于 线程 、 多 条 控制 流 、 时 序 失去 控制 ， 导 致 混乱 。 


7.2 ”进程 ID 和 线程 ID 


在 Linux 中 ， 目 前 的 线程 实现 是 Native POSIX Thread Library， 简 称 NPTL。 在 这 种 实现 下 ， 线 程 又 被 称 为 轻 量 级 进程 (Light Weighted Process) ， 每 一 个 上 
实体 ， 也 拥有 自己 的 进程 描述 符 (task_struct 结 构 体 ) 。 


户 态 的 线程 ， 在 内 核 之 中 都 对 应 一 个 调度 


没有 线程 之 前 ， 一 个 进程 对 应 内 核 里 的 一 个 进程 描述 符 ， 对 应 一 个 进程 ID。 但 是 引入 了 线程 的 概念 之 后 ， 情 况 就 发 生 了 变化 ， 一 个 用 户 进程 下 管辖 N 个 用 户 态 线程 ， 每 个 线程 作为 一 个 独立 的 调度 实体 
在 内 核 态 都 有 自己 的 进程 描述 符 ， 进 程 和 内 核 的 进程 描述 符 一 下 子 就 变 成 了 1 : N 的 关系 ，POSIX 标 准 又 要 求 进程 内 的 所 有 线程 调用 getpid 函 数 时 返回 相同 的 进程 ID。 如 何 解决 上 述 问题 呢 ? 


内 核 引 入 了 线程 组 (Thread Group) 的 概念 。 


struct task struct {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/... 

pid t pid; 

pidt tgid 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/... 

struct task struct *group leader; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Text/... 

struct list head thread group; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/... 


多 线程 的 进程 ， 又 被 称 为 线程 组 ， 线 程 组 内 的 每 一 个 线程 在 内 核 之 中 都 存在 一 个 进程 描述 符 (task_struct) 与 之 对 应 。 进 程 描述 符 结构 体 中 的 pid， 表 面 上 看 对 应 的 是 进程 ID， 其 实 不 然 ， 它 对 应 的 是 线 


程 ID; 进程 描述 符 中 的 tgid， 含 义 是 Thread Group ID， 该 值 对 应 的 是 用 户 层面 的 进程 ID， 具 体 见 表 7-3。 


表 7-3 ”线程 ID 和 进程 ID 的 值 


本 节 介绍 的 线程 ID， 不 同 于 后 面 会 讲 到 的 pthread t 类 型 的 线程 ID， 和 进程 ID 一 样 ， 线 程 ID 是 pid t 类 型 的 变量 ， 而 且 是 


线程 ID 
进程 ID 


内 核 进程 描述 符 中 对 应 的 结构 
pld t pid 


pid t tgid 


来 唯一 标识 线程 的 一 个 整 型 变量 。 那 么 如 何 查 看 一 个 线程 的 ID 呢 ? 


manu@manu-hacks:~$ ps -eLf 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/... 


UID 

syslog 
syslog 
syslog 
syslog 


ID PEID LWP C NLWP STIME TTY TIME CMD 

837 1 837 0 4 22:20 ? 00:00:00 rsyslogd 
837 I 838 0 4 22:20 ? 00:00:00 rsyslogd 
837 1 839 0 4 22:20 ? 00:00:00 rsyslogd 
837 1 840 0 4 22:20 ? 00:00:00 rsyslogd 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/... 


ps 命令 中 的 -L 选 项 ， 会 显示 出 线程 的 如 下 信息 。 


" LWP: 线程 ID， 即 gettid () 系统 调用 的 返回 值 。 


` NLWP: 线程 组 内 线程 的 个 数 。 


所 以 从 上 面 可 以 看 出 rsyslogd 进 程 是 多 线程 的 ， 进 程 ID 为 837， 进 程 内 有 4 个 线程 ， 线 程 1D 分 别 为 837、838、839 和 840 (如 图 7-5 所 示 ) 。 


PID=837 


TID=837 


PID=837 


TID= 


838 


线程 C 
PPID=1 


PID=837 


TID=839 


进程 ID 为 837 的 进程 


图 7-5 进程 ID 和 线程 ID (调度 域 ) 


PID=837 


TID=840 


已 知 某 进 程 的 进程 ID， 该 如 何 查看 该 进程 内 线程 的 个 数 及 其 线程 ID 呢 ? 其 实 可 以 通过 /proc/PIDVtask/ 目 录 下 的 子 目录 来 查看 ， 如 下 。 因 为 procfs 在 task 下 会 给 进程 的 每 个 线程 建立 一 个 子 目录 ， 目 录 名 


为 线程 ID。 


manu@manu-hacks:~$ 11 /proc/837/task/ 总 用 量 0 
4 月 16 2 


Gr-xr-xr-x 
dr-xr-xr-x 
Gr-xr-xr-x 
Ur 
Ur 
Gr-xr-xr-x 


6 


3 
6 
6 
6 
6 


syslog syslog 0 
syslog syslog 0 4 月 16 22: 
syslog syslog 0 4 月 16 22: 
Syslog syslog 0 4 月 16 22: 
Syslog syslog 0 4 月 16 22: 
syslog syslog 0 4 月 16 22: 


2732 ./ 


20 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/../ 


32 837/ 
32 838/ 
32 839/ 
32 840/ 


对 于 线程 ，Linux 提 供 了 gettid 系 统 调用 来 返回 其 线程 ID， 可 惜 的 是 glibc 并 没有 


将 该 系统 调用 封装 起 来 ， 再 开放 出 接 


来 供 程序 员 使 


。 如 果 确 实 需要 获取 线程 ID， 可 以 采用 如 下 方法 : 


#include <sys/syscall.h> 
int TID = syscall (SYS gettiqd); 


从 上 面 的 示例 来 看 ，rsyslogd 是 个 多 线程 的 进程 ， 进 程 ID 为 837， 下 面 有 一 个 线程 的 ID 也 是 837， 这 不 是 巧合 。 线 程 组 内 的 第 一 个 线程 ， 在 用 户 态 被 称 为 主线 程 (main thread) ， 在 内 核 中 被 称 为 
Group Leader。 内 核 在 创建 第 一 个 线程 时 ， 会 将 线程 组 ID 的 值 设 置 成 第 一 个 线程 的 线程 ID，group_leader 指 针 则 指向 自身 ， 即 主线 程 的 进程 描述 符 ， 如 下 。 


/* 线 程 组 ID 等 于 主线 程 的 TD，grouP_leader 指 向 自身 */ 
p->tgid = p->pid; 

Pp->group leader = p; 

INIT LIST HEAD(&p->thread group); 


所 以 可 以 看 到 


至 于 线程 组 其 他 线程 的 ID 则 由 内 核 负 责 分 配 ， 其 线程 组 ID 总 是 和 


， 线 程 组 内 存在 一 个 线程 ID 等 


进程 ID， 而 该 线程 即 为 线程 组 的 


EF 线程 。 


线程 的 线程 组 ID 一致， 无 论 是 主线 程 直接 创建 的 线程 ， 还 是 创建 出 来 的 线程 再 次 创建 的 线程 ， 都 是 这 样 。 


if (clone flags & CLONE _ THREAD) 
p->tgid = current->tgid; 
if (clone flags & CLONE THREAD) { 
Pp->group leader = current->group leader; 
list add tail rcu(g&p->thread group, &p->group leader->thread group); 


} 


通过 group_leader 指 针 ， 每 个 线程 都 能 找到 主线 程 。 主 线程 存在 一 个 链表 头 ， 后 


利用 上 述 的 结构 ， 每 个 线程 都 可 以 轻松 地 找到 其 线程 组 的 


创建 的 每 一 个 线程 都 会 链 入 到 该 双向 链表 中 。 


线程 (通过 group leader 指 针 ) ， 另 一 方面 ， 通 过 线程 组 的 主线 程 ， 也 可 以 轻松 地 遍历 其 所 有 的 组 内 线程 (通过 链表 ) 。 


需要 强调 的 一 点 是 ， 线 程 和 进程 不 一 样 ， 进 程 有 父 进 程 的 概念 ， 但 在 线程 组 里 面 ， 所 有 的 线程 都 是 对 等 的 关系 (如 图 7-6 所 示 ) 。 


“ 并 不 是 只 有 主线 程 才能 创建 线程 ， 被 创建 出 来 的 线程 同样 可 以 创建 线程 。 
“ 不 存在 类 似 于 fo 水 函数 那样 的 父子 关系 ， 大 家 都 归属 于 同一 个 线程 组 ， 进 程 ID 都 相等 ，group_leader 都 指向 主线 程 ， 而 且 各 有 各 的 线程 ID。 
' 并 非 只 有 主线 程 才 能 调用 pthread_join 连 接 其 他 线程 ， 同 一 线程 组 内 的 任意 线程 都 可 以 对 某 线程 执行 pthread_join 函 数 。 


:并非 只 有 主线 程 才能 调用 pthtread_detach 函 数 ， 其 实 任意 线程 都 可 以 对 同一 线程 组 内 的 线程 执行 分 离 操作 。 


线程 


同一 线程 组 的 线程 ， 没 有 层次 关系 


图 7-6 ”线程 的 对 等 关系 


7.3 pthread 库 接口 介绍 


1995 年 ，POSIX.1c 标 准 对 POSIX 线 程 APl 进 行 了 标准 化 ， 这 就 是 我 们 今天 看 到 的 pthread 库 的 接口 。 


这 些 接口 包括 线程 的 创建 、 退 出 、 取 消 和 分 离 ， 以 及 连接 已 经 终止 的 线程 ， 互 斥 量 ， 读 写 锁 ， 线 程 的 条 件 等 待 等 (如 表 7-4 所 示 ) 。 


表 7-4 POSIX 线 程 库 的 接口 


POSIX 函数 函数 功能 描述 
pthread create 创建 一 个 线程 
pthread exit 退出 线程 
pthread self 获取 线程 ID 
pthread equal 险 查 两 个 线程 ID 是 否 相 等 
pthread_join 等 待 线 程 退 出 
pthread_detach 设置 线程 状态 为 分 离 状 态 
pthread cancel 线程 的 取消 (将 于 第 8 草 介 绍 ) 
A 线程 退出 ， 清 理 函数 注册 和 执行 


pthread_ cleanup_pop 


上 面 提 到 的 函数 列表 ， 是 pthread 的 基本 接口 ， 接 下 来 的 章节 ， 将 分 别 介绍 这 些 接口 。 


7.4 线程 的 创建 和 标识 


首先 要 介绍 的 接口 是 创建 线程 的 接口 ， 即 pthread_create 函 数 。 程 序 开始 启动 的 时 候 ， 产 生 的 进程 只 有 一 个 线程 ， 我 们 称 之 为 主线 程 或 初始 线程 。 对 于 单线 程 的 进程 而 言 ， 只 存在 主线 程 一 个 线程 。 如 
果 想 在 主线 程 之 外 ， 再 创建 一 个 或 多 个 线程 ， 就 需要 用 到 这 个 接口 了 。 


7.5 ”线程 的 退出 


有 生 就 有 灭 ， 线 程 执 行 完 任务 ， 也 需要 终止 。 


下 面 的 三 种 方法 中 ， 线 程 会 终止 ， 但 是 进程 不 会 终止 (如 果 线 程 不 是 进程 组 里 的 最 后 一 个 线程 的 话 ) : 


“ 创建 线程 时 的 start_routine 函 数 执行 了 return， 并 且 返 回 指定 值 。 
“ 线程 调用 pthread_exit。 


“ 其 他 线程 调用 了 Pthread_cancel 函 数 取消 了 该 线程 ( 详 见 第 8 章 ) 。 


如 果 线 程 组 中 的 任何 一 个 线程 调用 了 exit 函 数 ， 或 者 主线 程 在 main 函 数 中 执行 了 return 语 句 ， 那 么 整个 线程 组 内 的 所 有 线程 都 会 终止 


值得 注意 的 是 ，pthread_exit 和 线程 启动 函数 (start_routine) 执行 return 是 有 区 别 的 。 在 start_routine 中 调用 的 任何 层级 的 函数 执行 pthread_exit () 都 会 引发 线程 退出 ， 而 return， 只 能 是 在 
start_routine 函 数 内 执行 才能 导致 线程 退出 。 


void* start routine (void* param) 
{ 

fo0(); 

bar(); 

return NULL; 
} 


void foo() 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/... 
pthread exit (NULL); 
} 


如 果 foo 函 数 执行 了 pthread_exit 函 数 ， 则 线程 会 立刻 退出 ， 后 面 的 bar 就 会 没有 机 会 执行 了 。 


下 面 来 看 看 pthread_exit 函 数 的 定义 : 


#include <pthread.h> 
void pthread exit (void *value ptr); 


value_ptr 是 一 个 指针 ， 存 放 线程 的 “临终 遗言 ”。 线 程 组 内 的 其 他 线程 可 以 通过 调用 pthread join 函数 接收 这 个 地 址 ， 从 而 获取 到 退出 线程 的 临终 遗 
递 NULL 指 针 ， 如 下 所 示 : 


中 


。 如 果 线 程 退 出 时 没有 什么 遗言 ， 则 可 以 直接 传 


pthread exit (NULL) 


但 是 这 里 有 一 个 问题 ， 就 是 不 能 将 遗言 存放 到 线程 的 局 部 变量 里 ， 因 为 如 果 用 户 写 的 线程 函数 退出 了 ， 线 程 函数 栈 上 的 局 部 变量 可 能 就 不 复 存 在 了 ， 线 程 的 临终 遗言 也 就 无 法 被 接收 者 读 到 ， 示 例如 
下 。 


void* thread work (void* param) 
{ 

int ret = -1; 

ret = whatever (); 

pthread exit (&ret); 
} 


上 述 用 法 是 一 种 典型 的 错误 


法 


因为 当 线 程 退出 时 ， 线 程 栈 已 经 不 复 存 在 了 ， 上 面 的 ret 变 量 也 已 经 无 法 访问 了 。 那 我 们 应 该 如 何 正确 地 传递 返回 值 呢 ? 


“ 如 果 是 int 型 的 变量 ， 则 可 以 使 用 “pthread_exit ( (int*) ret) ; ”。 
“ 使 用 全 局 变量 返回 。 
: 将 返回 值 填 入 到 用 malloc 在 堆 上 分 配 的 空间 里 。 


“ 使 用 字符 串 常 量 ， 如 pthread_exit (“hello,， world”) 。 


第 一 种 是 tricky 的 做 法 ， 我 们 将 返回 值 ret 进 行 强制 类 型 转换 ， 接 收 方 再 把 返回 值 强制 转换 成 int。 但 是 不 推荐 使 用 这 种 方法 。 这 种 方法 虽然 是 奏效 的 ， 但 是 太 tricky， 而 且 C 标 准 没有 承诺 将 int 型 转 成 指针 
后 ， 再 从 指针 转 成 int 型 时 ， 数 据 一 直 保持 不 变 。 


第 二 种 方法 使 用 全 局 变量 ， 其 他 线程 调用 pthread join 时 也 可 见 这 个 变量 。 


第 三 种 方法 是 用 malloc， 在 堆 上 分 配 空间 ， 然 后 将 返回 值 填 入 其 中 。 因 为 堆 上 的 空间 不 会 随 着 线程 的 退出 而 释放 ， 所 以 pthread join 可 以 取出 返回 值 。 切 莫 忘 记 释 放 该 空间 ， 否 则 会 引起 内 存 泄漏 。 


第 四 种 方法 之 所 以 可 行 ， 是 因为 字符 串 常量 有 静态 存储 的 生存 期 限 。 


传递 线程 的 返回 值 ， 除 了 pthread _exit 函 数 可 以 做 到 ， 线 程 的 启动 函数 (start_routine 函 数 ) return 也 可 以 做 到 ， 两 者 的 数据 类 型 要 保持 一 致 ， 都 是 void* 类 型 。 这 也 解释 了 为 什么 线程 的 启动 函数 
start_routine 的 返回 值 总 是 void* 类 型 ， 如 下 : 


void pthread exit (void *retval); 
void * start routine (void *param) 


线程 退出 有 一 种 比较 有 意思 的 场景 ， 即 线程 组 的 其 他 线程 仍 在 执行 的 情况 下 ， 主 线程 却 调用 pthread_exit 函 数 退 出 了 。 这 会 发 生 什 么 事情 ? 


首先 要 说 明 的 是 这 不 是 常规 的 做 法 ， 但 是 如 果真 的 这 样 做 了 ， 那 么 主线 程 将 进入 僵尸 状态 ， 而 其 他 线程 则 不 受 影响 ， 会 继续 执行 ， 如 下 。 第 4 章 曾 经 分 析 过 这 种 场景 。 


root@newtest-1:~# ps -eL |grep thread jd 
62404 62404 pts/1 00:00:00 thread id <defunct> 
62404 62405 pts/1 00:00:00 thread id 
62404 62406 pts/1 00:00:00 thread id 


7.6 线程 的 连接 与 分 离 


7.6.1 ”线程 的 连接 


7.5 节 提 到 过 线程 退出 时 是 可 以 有 返回 值 的 ， 那 么 如 何 取 到 线程 退出 时 的 返回 值 呢 ? 


线程 库 提 供 了 pthread join 函数 


相关 函数 的 接口 定义 如 下 : 


#include <pthread.h> 


， 用 来 等 待 某 线程 的 退出 并 接收 它 的 返回 值 。 这 种 操作 被 称 为 连接 (joining) 。 


int pthread join (Pthread t thread, void **retval); 


根据 等 待 的 线程 是 否 退出 ， 可 得 


程 的 线程 ID， 第 二 个 参数 用 来 接收 返回 值 。 


到 如 下 两 种 情况 : 


“ 等 待 的 线程 尚未 退出 ， 那 么 pthtead_ join 的 调用 线程 就 会 陷入 阻塞 。 


:等待 的 线程 已 经 退出 ， 那 么 pthread_join 函 数 会 将 线程 的 退出 值 (void* 类 型 ) 存放 到 tetval 指 针 指向 的 位 置 。 


线程 的 连接 (join) 操作 有 点 类 似 于 进程 等 待 子 进程 退出 的 等 待 (wait) 操作 ， 但 细 细 想来 ， 还 是 有 不 同 之 处 : 


第 一 点 不 同 之 处 是 进程 之 间 的 等 
程 F 一 样 可 以 连接 线程 A。 


待 只 能 是 父 进程 等 待 子 进程 ， 而 线程 则 不 然 。 线 程 组 内 的 成 员 是 对 等 的 关系 ， 只 要 是 在 一 个 线程 组 内 ， 就 可 以 对 另外 一 个 线程 执行 连接 (join) 操作 。 如 图 7-9 所 示 ， 线 


图 7-9 ”线程 的 连接 无 等 级 关系 


第 二 点 不 同 之 处 是 进程 可 以 等 待 任 一 子 进程 的 退出 (用 下 面 的 代码 不 难 做 到 ) ， 但 是 线程 的 连接 操作 没有 类 似 的 接口 ， 即 不 能 连接 线程 组 内 的 任 一 线程 ， 必 须 明 确 指明 要 连接 的 线程 的 线程 1D。 


wait(&status) 7 
waitpid(-1, &status, optioins) 


pthread join 不 能 连接 线程 组 内 


程 ， 当 库 函 数 尝试 连接 (join) 私自 创建 的 线程 时 ， 发 现 已 经 被 连接 过 了 ， 就 会 返回 EINVAL 错 误 。 如 果 库 函数 需要 根据 返回 值 来 确定 接 下 来 的 流程 ， 这 就 会 引发 严重 


ID 的 那些 线程 ， 就 像 pthread join 函 


数 那样 。 


下 面 来 分 析出 错 的 情况 ， 当 调 


返 


失败 时 ， 和 pthread_create 函 数 一 样 ，errno 作 为 返回 值 返回 。 错 误 码 的 情况 见 表 7-7。 


表 7-7 ”pthread_join 的 错误 码 和 说 明 


回 值 说 明 
ESRCH 传人 的 线程 ID 不 存在 ， 查 无 此 线程 


EINVAL 线程 不 是 一 个 可 连接 (joinable) 的 线程 


的 问题 。 正确 


任意 线程 的 做 法 ， 并 不 是 NPTL 线 程 库 设计 上 的 瑕 冯 ， 而 是 有 意 为 之 的 。 如 果 听 任 线程 连接 线程 组 内 的 任意 线程 ， 那 么 所 谓 的 任意 线程 就 会 包括 其 他 库 函 数 私自 创建 的 线 


的 做 法 是 ， 连 接 已 知 线程 


组 
返回 值 说 明 
EINVAL 已 经 有 其 他 线程 捷足先登 ， 连 接 目标 线程 
EDEADLK 死 锁 ,如 自己 连接 自己 ,或 者 A 连接 B，B 又 连接 A 


pthread join 函数 之 所 以 能 够 判断 是 否 死 锁 和 连接 操作 是 否 被 其 他 线程 捷足先登 ， 是 因为 目标 线程 的 控制 结构 体 struct pthread 中 ， 存 在 如 下 成 员 变量 ， 记 录 了 该 线程 的 连接 者 。 


struct pthread *joinid; 


该 指针 存在 三 种 可 能 ， 如 下 。 
NULL: 线程 是 可 连接 的 ， 但 是 尚 没有 其 他 线程 调用 pthread_join 来 连接 它 。 


“ 指向 线程 自身 的 struct pthread: 表示 该 线程 属于 自我 了 断 型 ， 执 行 过 分 离 操作 ， 或 者 创建 线程 时 ， 设 置 的 分 离 属性 为 PTHREAD_CREATE_DETACHED， 一 旦 退出 ， 则 自动 释放 所 有 资源 ， 无 需 其 他 线 
程 来 连接 。 


“ 指向 线程 组 内 其 他 线程 的 struct pthread: 表示 joinid 对 应 的 线程 会 负责 连接 。 


因为 有 了 该 成 员 变 量 来 记录 线程 的 连接 者 ， 所 以 可 以 判断 如 下 场景 ， 如 图 7-10 所 示 。 


pthread_join 


< 
线程 A ) pthread_join 线程 B 


pthread_]join 


图 7-10 ”可 能 返回 EDEADLK 的 场景 


不 过 两 者 还 是 略 有 区 别 的 ， 第 一 种 场景 ， 线 程 A 连 接线 程 A，pthread join 函数 一 定 会 返回 EDEADLK。 但 是 第 二 种 场景 ， 大 部 分 情况 下 会 返回 EDEADLK， 不 过 也 有 例外 。 不 管 怎样 ， 不 建议 两 个 线程 互 
相连 接 。 


如 果 两 个 线程 几乎 同时 对 处 于 可 连接 状态 的 线程 执行 连接 操作 会 怎么 样 ? 
答案 是 只 有 一 个 线程 能 够 成 功 ， 另 一 个 则 返回 EINVAL.。 


NTPL 提 供 了 原子 性 的 保证 : 


(atomic compare and exchange _ bool_acq (&pd->joined, self, NULL) 


“ 如 果 是 NULL， 则 设置 成 调用 线程 的 线程 ID，CAS 操 作 (Compare And Swap) 是 原子 操作 ， 不 可 分 割 ， 决 定 了 只 有 一 个 线程 能 成 功 。 


“ 如 果 joinid 不 是 NULL， 表 示 该 线程 已 经 被 别 的 线程 连接 了 ， 或 者 正 处 于 已 分 离 的 状态 ， 在 这 两 种 情况 下 ， 都 会 返回 EINVAL。 


7.7 互 斥 量 


7.7.1 为 什么 需要 互 斥 量 


大 部 分 情况 下 ， 线 程 使 用 的 数据 都 是 局 部 变量 ， 变 量 的 地 址 在 线程 栈 空间 内 ， 这 种 情况 下 ， 变 量 归属 于 单个 线程 ， 其 他 线程 无 法 获取 到 这 种 变量 。 


如 果 所 有 的 变量 都 是 如 此 ， 将 会 省 去 无 数 的 麻烦 。 但 实际 的 情况 是 ， 很 多 变量 都 是 多 个 线程 共享 的 ， 这 样 的 变量 称 为 共享 变量 (shared variable) 。 可 以 通过 数据 的 共享 ， 完 成 多 个 线程 之 间 的 交互 。 


但 是 多 个 线程 并 发 地 操作 共享 变量 ， 会 带 来 一 些 问题 。 


下 面 来 看 一 个 例子 ， 如 图 7-12 所 示 。 


Thread B 
or GC : :) 
ylobal Cn 十 十 


Thread A 


i 
Global crit++ 


global cnt 


Thread D 


EE 和 
global, Cnt 


Thread C 


Fo 
glopal nk 


图 7-12 ”多 线程 操作 全 局 变量 


如 果 存 在 4 个 线程 ， 不 加 任何 同步 措施 ， 共 同 操作 一 个 全 局 变量 global_cnt， 假 设 每 个 线程 执行 1000 万 次 自 加 操作 ， 那 么 会 发 生 什么 事情 呢 ? 4 个 线程 结束 的 时 候 ，global_cnt 等 于 几 ? 


这 个 问题 看 起 来 是 小 学 题目 ， 当 然 是 4000 万 ， 但 实际 结果 又 如 何 呢 ? 


#9efine _GNU_SOURCE 
#include <stdio.h> 
#include <stdlib.h> 
#include <unistd.h> 
#include <pthread.h> 
#include <string.h> 
#include <errno.h> 
#include <sys/types.h> 
#define LOOP TIMES 10000000 
#define NR THREAD 4 
pthread rwlock t rwlock; 
int global cnt = 0; 
void* thread work (void* param) 
{ 
mt 4 
pthread rwlock rdlock (&rwlock); 
for(i = 0 ;i< LOOP TIMES; i++ ) 


global cnt++; 


} 
pthread rwlock unlock (&rwlock); 
return NULL; 


int main(int argc ,char* argv[]) 


pthread t tid[NR THREAD]; 

Char err buf[1024]; 

mb 4 Pet 

ret = pthread rwlock init (&rwlock, NULL); 
if (ret) 

{ 


fprintf (stderr, "init rw lock failed (%s)\n",strerror r(ret,err buf, sizeof (err buf))); 
exit (1); 


} 
pthread rwlock wrlock (&rwlock); 
for(i = 0 ;i< NR THREAD ; i++) 
{ 
ret = pthread create (gtid[i],NULL, thread work,NULL); 
i (rat = AQ) 
{ 
fprintf (stderr, "create thread failed ,return %d (%s)\n", 
ret, strerror r(ret,err buf,sizeof (err buf))); 
} 


pthread rwlock unlock (&rwlock); 
for( = 0 ;i< NR THREAD; i++) 


pthread join (tid[i],NULL); 
} 
pthread rwlock destroy(&rwlock); 


printf ("thread num : Sd\n",NR_ THREAD); 
printf ("loops Per thread : %d\n",LOOP TIMES); 


printf ("expect result : Sd\n",LOOP TIMES*NR THREAD); 
printf ("actual result : Sd\n",global cnt); 
exit (0); 


上 面 的 代码 中 ，3 引 入 了 读 写 锁 ， 来 确保 线程 位 于 同一 起 跑 线 ， 同 时 开始 执行 自 加 操作 ， 不 受 线程 创建 先后 顺序 的 影响 。 创 建 4 个 线程 之 前 ， 主 线程 先 占 住 读 写 锁 的 写 锁 ， 任 一 线程 创建 好 了 之 后 ， 要 先 日 
请 读 锁 ， 申 请 成 功 方 能 执行 global_cnt+ + ， 但 是 写 锁 已 经 被 主线 程 占据 ， 所 以 无 法 执行 。 待 4 个 线程 都 创建 成 功 后 ， 主 线程 会 释放 写 锁 ， 从 而 保证 4 个 线程 一 起 执行 。 


执行 结果 又 如 何 呢 ? 来 看 看 : 


二 


thread num :4 

loops per thread : 10000000 
expect result : 40000000 
actual result : T1115156 


结果 并 不 是 期 待 的 4000 万 ， 而 是 11115156， 一 个 很 奇怪 的 数字 。 而 且 每 次 执行 ， 最 后 的 结果 都 不 相同 。 
为 什么 无 法 获得 正确 的 结果 ? 


看 一 下 汇编 代码 ， 先 通过 如 下 指令 读 取 到 汇编 代码 : 


objdump -d pthread no_sync > pthread no_sync.objdump 


然后 在 汇编 代码 中 取出 global_cnt+ + 这 部 分 代码 相关 的 汇编 代码 ， 就 是 如 下 指令 : 


40098c: 8b 05 1la 07 20 00 mov 0x20071a (Srip), Seax # 6010ac <global cnt> 
400992:; 83 c0 01 add $0x1, Seax 
400995 : 89 05 11 07 20 00 mov S$%eax,0x200711 (%rip) # 6010ac <global cnt> 


++ 操 作 ， 并 不 是 一 个 原子 操作 (atomic operation) ， 而 是 对 应 了 如 下 三 条 汇编 指令 。 
“ Load: 将 共享 变量 global_cnt 从 内 存 加 载 进 寄存 器 ， 简 称 L。 
:Update: 更 新 寄存 器 里 面 的 global_cnt 值 ， 执 行 加 1 操作 ， 简 称 U。 


“ Store: 将 新 的 值 ， 从 寄存 器 写 回 到 共享 变量 gobal_cnt 的 内 存 地 址 ， 简 称 为 S。 


将 上 述 情 况 用 伪 代 码 表示 ， 就 是 如 下 情况 : 


LI 操 作 : register = global_cnt 
U 操 作 : register = register + 1 
S 操 作 : global_cnt = register 


以 两 个 线程 为 例 ， 如 果 两 个 线程 的 执行 如 图 7-13 所 示 ， 就 会 引发 结果 不 一 致 : 执行 了 两 次 ++ 操 作 ， 最 终 的 结果 却 只 加 了 1。 


线程 A 线程 B 


.一 | 


a 


At 


上 


图 7-13 ”多 线程 操作 全 局 变量 结果 出 错 的 原因 


上 面 的 例子 表明 ， 应 该 避免 多 个 线程 同时 操作 共享 变量 ， 对 于 共享 变量 的 访问 ， 包 括 读 取 和 写 入 ， 都 必须 被 限制 为 每 次 只 有 一 个 线程 来 执行 。 


更 详细 的 语言 来 描述 下 ， 解 决 方案 需要 能 够 做 到 以 下 三 点 。 


a 


[D 


3) 


) 代码 必须 要 有 互 斥 的 行为 : 当 一 个 线程 正在 临界 区 中 执行 时 ， 不 允许 其 他 线程 进入 该 临界 区 中 。 


网 


如 果 多 个 线程 同时 要 求 执行 临界 区 的 代码 ， 并 且 当 前 临界 区 并 没有 线程 在 执行 ， 那 么 只 能 允许 一 个 线程 进入 该 临界 


如 果 线 程 不 在 临界 区 中 执行 ， 那 么 该 线程 不 能 阻止 其 他 线程 进入 临界 


风 


global cnt 


上 面 说 了 这 么 多 ， 本 质 其 实 就 是 一 句 话 ， 我 们 需要 一 把 锁 (如 图 7-14 所 示 ) 。 


非 临 蹇 区 ， 可 以 并 发 执行 的 代码 区 域 


临界 区 ， 只 允许 一 个 线程 执行 ， 
不 允许 多 个 线程 同时 执行 


非 临界 区 ， 可 以 并 发 执行 的 代码 区 域 


图 7-14 用 人 锁 来 保护 临界 区 


锁 是 一 个 很 普遍 的 需求 ， 当 然 用 户 可 以 自行 实现 锁 来 保护 临界 区 。 但 是 实现 一 个 正确 并 且 高 效 的 锁 非常 困难 。 纵 然 抛 下 高 效 不 谈 ， 让 用 户 从 零 开始 实现 一 个 正确 的 锁 也 并 不 容易 。 正 是 因为 这 种 需求 具 
有 普遍 性 ， 所 以 Linux 提 供 了 互 斥 量 。 


7.8 ” 读 写 锁 


很 多 时 候 ， 对 共享 变量 的 访问 有 以 下 特点 : 大 多 数 情况 下 线程 只 是 读 取 共享 变量 的 值 ， 并 不 修改 ， 只 有 极 少 数 情况 下 ， 线 程 才 会 真正 地 修改 共享 变量 的 值 。 

对 于 这 种 情况 ， 读 请 求 之 间 是 无 需 同步 的 ， 它 们 之 间 的 并 发 访问 是 安全 的 。 然 而 写 请 求 必须 锁 住 读 请 求 和 其 他 写 请 求 。 

这 种 情况 在 实际 中 是 存在 的 ， 比 如 配置 项 。 大 多 数 时 间 内 ， 配 置 是 不 会 发 生变 化 的 ， 偶 尔 会 出 现 修改 配置 的 情况 。 如 果 使 用 互 斥 量 ， 完 全 阻止 读 请 求 并 发 ， 则 会 造成 性 能 的 损失 。 
出 于 这 种 考虑 ，POSIX 引 入 了 读 写 锁 。 

读 写 锁 比 较 简单 ， 从 表 7-11 可 以 看 出 ， 对 于 这 种 情况 ， 读 写 锁 做 了 优化 ， 人 允许 大 家 一 起 读 。 


表 7-11 读 写 锁 的 行为 


当前 锁 状 态 读 锁 请 求 写 锁 请 求 


深 
洒 
S |S 
画 
涪 


写 锁 阻塞 阻塞 
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区 的 存在 ， 导 致 多 个 线程 不 能 并 行 ， 造 成 性 能 下 降 。 临 界 区 越 大 ， 多 个 线程 出 入 临界 区 越 频 繁 ， 对 性 


通过 对 互 斥 量 和 读 写 锁 的 讨论 ， 我 们 已 经 有 了 这 种 意识 : 对 于 共享 数据 的 读 写 ， 要 加 锁 保护 。 临 界 
能 的 伤害 也 就 越 大 。 
这 种 情况 下 对 性 能 的 伤害 是 比较 明显 的 。 多 线程 情况 下 ， 还 有 一 种 情况 对 性 能 的 损害 是 比较 大 的 ， 却 不 像 临 界 区 这 么 明显 。 这 就 是 有 名 的 伪 共 享 问题 。 


7-21 所 示 。 从 距离 CPU 最 近 的 寄存 器 到 主 内 存 ， 依 次 为 CPU 寄存 器 、L1 Cache、L2 Cache、L3 Cache 和 主 存 。 从 高 层 往 底层 走 ， 存 储 设备 变 得 更 慢 ， 容 量 更 


根据 局 部 性 原理 ， 存 储 器 是 分 层 的， 如 图 
大 ， 单 位 字 节 也 更 便宜 。 最 高 层 是 很 少量 的 寄存 器 ， 通 常 可 以 在 1 个 时 钟 周期 内 访问 它们 ， 而 接 下 来 的 L1 Cache 通 常 可 以 在 4 个 时 钟 周期 内 访问 到 ，L2 Cache 通 常 需要 10 个 时 钟 周 期 才能 访问 到 ， 而 到 了 主 


存 ， 通 常 需要 几 百 个 时 钟 周期 才能 访问 得 到 ， 对 这 个 延迟 数据 感 兴趣 的 话 ， 可 以 阅读 一 下 相关 文献 ID。 


在 这 种 分 层 的 存储 结构 中 ， 对 于 每 一 个 k， 位 于 Kk 层 的 更 快 更 小 的 存储 被 作为 位 于 k+ 1 层 的 更 大 更 慢 的 存储 设备 的 缓存 。 换 名 话说 更 快 更 小 的 存储 设备 的 数据 来 自 更 慢 更 大 的 低 一 级 存储 设备 。 访 问 的 数 
据 在 高 速 缓存 中 ， 被 称 为 缓存 命中 ， 这 种 情况 下 访问 速度 比较 快 。 如 果 访 问 的 数据 d 在 k 级 缓存 中 不 存在 ， 就 不 得 不 从 k+1 级 中 取出 包含 q 的 那个 块 (block) 。 如 果 k 级 缓存 已 经 满 了 的 话 ， 就 可 能 会 覆盖 现 


存 的 一 个 块 。 


容量 更 小 ， 访 问 速度 更 快 ， 
单位 字 节 成 本 更 高 


容量 更 大 ， 更 慢 ， 
单位 字 节 成 本 更 低 


图 7-21 存储 器 的 层次 结构 


由 于 高 一 级 缓存 的 性 能 远 远 超过 低 一 级 的 缓存 ， 所 以 一 旦 缓存 不 命中 (Cache miss) ， 对 性 能 的 损害 就 会 是 比较 大 的 。 

在 典型 的 多 核 架 构 中 ， 每 个 CPU 都 有 自己 的 Cache。 如 果 一 个 内 存 中 的 变量 在 多 个 CPU Cache 中 都 有 副本 ， 则 需要 保证 变量 的 Cache 的 一 致 性 。 现 在 大 多 数 的 架构 实现 Cache 一 致 性 都 是 采用 MESI 协 
议 。 对 缓存 一 致 性 协议 感 兴趣 的 话 ， 可 以 阅读 《计算 机 体系 结构 : 量化 研究 方法 》 这 本 经 典 之 作 。 此 外 ，Paul E.McKenney 的 《ls Parallel Programming Hard，And，If so, What Can You Do About 
It》 一 书 中 也 有 很 详尽 的 介绍 。 

需要 注意 的 是 ，CPU Cache 是 以 缓存 线 (Cache line) 为 单位 进行 读 写 的 。 通 常 来 说 ， 一 条 缓存 线 的 大 小 为 64 字 节 。 换 言 之 ， 就 是 访问 1 字 节 的 数据 ， 系 统 也 会 将 该 字 节 所 在 的 整 条 缓存 线 的 数据 都 搬 
到 缓存 中 。 
因为 CPU Cache 具 有 以 Cache line 为 单位 进行 读 写 的 性 质 ， 所 以 在 多 线程 编程 中 ， 稍 有 不 愤 ， 就 会 掉 入 伪 共享 的 陷阱 ， 造 成 性 能 恶化 。 


可 以 考虑 下 如 下 代码 : 

int suml; 

int sum2; 

void threadl (int v[], int v count) {suml = 0;for (int i = 0; i < V_county i++) suml += V[i]7 
} 

void thread2 (int v[], int v count) { sum2 = 0; for (int i = 0; i < v count; i++) sum2 += v[il; 


局 变量 紧 挨 着 定义 ， 编 译 器 给 这 两 个 变量 分 配 的 内 存 几乎 总 是 紧 


这 部 分 代码 定义 了 两 个 全 局 变量 sum1 和 sum2， 两 个 线程 分 别 将 计算 结果 放 入 各 自 的 全 局 变量 中 ， 看 起 来 并 行 不 悖 。 但 是 由 于 这 两 个 全 
挨 着 的 ， 因 此 这 两 个 变量 很 可 能 在 同一 条 Cache line 中 。 


因此 sum2 的 值 也 随同 sum1 一 并 被 加 载 到 了 thread1 所 在 CPU 的 Cache 中 了 。 


如 图 7-22 所 示 ， 尽 管线 程 1 所 在 的 CPU 并 不 需要 sum2 的 值 ， 但 是 由 于 sum2 和 sum1 在 同一 条 Cache line 中 ， 


threadl 


thread2 


mm] 


当 thread1 修 改 sum1 的 值 时 ， 尽 管 并 未 更 新 sum2 的 值 ， 但 影响 的 是 整 条 Cache line， 它 会 将 thread2 所 在 CPU 对 应 的 Cache line 置 为 Invalidate。 如 果 thread2 尝 试 更 新 sum2， 会 触发 缓存 不 命中 。 反 


过 来 ，thread2 修 改 sum2 时 ， 也 会 影响 到 sum1 的 缓存 命 
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可 以 想见 ， 就 因为 两 个 值 彼此 上 毗邻 ， 落 在 同一 条 Cache line 中 ， 会 导致 大 量 的 缓存 不 命中 ， 从 而 影响 性 能 。 


下 面 通过 一 个 例子 ， 来 看 伪 共 享 给 性 能 带 来 的 影响 。 


计算 圆周 率 r 有 一 种 方法 是 数值 积分 法 : 
1 4 
T ob 
于 
可 以 通过 基于 中 点 矩形 的 数值 积分 方法 来 求解 上 述 积分 ， 如 下 : 
static long num rect = 400000000; 
double mid = 0.0; 
double height = 0.0; 
double width = 1.0/((double)num rect); 
int cur; 
for(cur = 0;cur < num rect; cur += 1) 
{ 
mid = (cur+0.5)*width; 
height = 4.0/(1 + midxmid) 7 
sum += height; 
} 
Sum *= widthy 
这 是 典型 的 计算 密集 型 程序 ， 因 此 我 们 采用 多 线程 来 分 工 协作 ， 代 码 如 下 : 
#include <stdlib.h> 
#include <stdio.h> 
#include <pthread.h> 
#define NR THREAD 1 
static long num rect = 400000000; 
typedef struct sum struct { 
double sum; 
//char padding[8]; 
} sum struct; 
struct sum struct _ sum[NR THREAD]; 
void* calc pi (void* ptr) 
{ 
int index = (int)ptr; 
double mid = 0.0; 
double height = 0.0; 
double width = 1.0/((double)num rect); 
int cur = index; 
for(;cur < num rect; cur += NR_THREAD) 
{ 
mid = (cur+0.5)*width; 
height = 4.0/(1 + mid*miqd); 
_ sum[index] .sum += height; 
} 
_ sum[index] .sum *= width; 
} 
int main() 
{ 
int i = 0; 
int ret ; 
double result = 0.0; 
pthread t tid[NR THREAD]; 
fprintf (stdout, "the size of struct sum struct = S$ld\n", sizeof (struct sum struct)); 


for(i=0 ;i< NR THREAD; i+t+) 
{ 
_ sum[i].sum = 0.0; 
ret = pthread create(&tid[il],NULL,calc pi, (void*) i); 
if(ret != 0) 
{ 
/*error handle here*/ 
exit (1) 
} 
} 
for( i= 0;i< NR THREAD ; i++) 


pthread join(tid[il],NULL); 

result += __ sum[il].sum; 
} 
fprintf (stdout, "the PI = %.32f\n",result); 
return 0; 


因为 hum _rect 等 于 4 亿 ， 因 此 要 计算 4 亿 次 ， 可 以 通过 修改 NRTHREAD 的 值 ， 让 8 个 线程 协同 计算 ,最 后 将 结果 累加 到 一 起 得 到 正确 的 值 ， 希 望 这 样 能 将 执行 时 间 缩 短 为 单线 程 的 1/8， 如 图 7-23 所 示 。 


NVS 
演 


图 7-23 ”8 个 线程 并 发 计算 的 值 


因为 每 个 线程 都 要 负责 往 _sum 对 应 的 位 置 更 新 结果 。 因 此 这 个 数组 很 容易 触发 前 面 提 到 的 伪 共 享 陷阱 。 当 sum_struct 结 构 体 没有 填充 字符 时 ， 该 结构 体 占据 8 字 节 ， 当 8 个 线程 并 发 时 ，_sum 数 组 很 
可 能 在 同一 个 Cache line 中 ， 这 时 候 性 能 必然 会 受到 影响 。 为 了 避 开 false sharing 这 个 陷阱 ， 测 试 程序 采用 了 加 填充 字 节 的 方法 。 如 果 给 sum_struct 结 构 体 加 上 56 个 填充 字 节 ， 每 个 sum_struct 占 据 1 条 
Cache line 的 大 小 ， 则 可 以 确保 它们 之 间 不 会 互相 影响 。 


typedef struct sum struct { 
double sum ;/*padding 56 字 节 ， 占 满 1 条 Cache line*/ 
//char padding[56]; 

} sum struct; 

struct sum struct __ SUum[NR_ THREAD]; 


在 24 核 的 服务 器 上 运行 ， 结 果 如 表 7-14 所 示 。 
表 7-14 伪 共 享 测试 代码 的 运行 结果 
运行 时 间 
8 个 线程 (没有 padding) 0m0.004s 
8 个 线程 (padding 56 字 节 ) 0m0.008s 


可 以 看 出 ， 如 果 不 加 56 字 节 的 填充 ， 由 于 伪 共 享 引 起 的 大 量 缓存 不 命中 ，8 个 线程 并 没有 带 来 8 倍 的 效率 提升 。 通 过 填充 字 节 解决 了 伪 共 享 的 问题 之 后 ， 效 率 线性 地 提升 了 8 倍 。 


测试 场景 


[1] http://Awww.sisoftware.net/?d=qag&cf=ben_mem_latency。 


[2] Latency Number Every Programmer Should Know。 


7.10 条件 等 待 


条 件 等 待 是 线程 间 同 步 的 另 一 种 方法 。 


线程 经 常 遇 到 这 种 情况 : 要 想 继续 执行 ， 可 能 要 依赖 某 种 条 件 。 如 果 条 件 不 满足 ， 它 能 做 的 事情 就 是 等 待 ， 等 到 条 件 满足 为 止 。 通 常 条 件 的 达成 ， 很 可 能 取决 于 另 一 个 线程 ， 比 如 生产 者 -消费 者 模型 。 
当 另 外 一 个 线程 发 现 条 件 符合 的 时 候 ， 它 会 选择 一 个 时 机 去 通知 等 待 在 这 个 条 件 上 的 线程 。 有 两 种 可 能 性 ， 一 种 是 唤醒 一 个 线程 ， 一 种 是 广播 ， 唤 醒 其 他 线程 。 


就 像 工厂 里 生产 车 间 没 有 原料 了 ， 所 有 生产 车 间 都 停工 了 ， 工 人 们 都 在 车 间 睡 觉 。 突 然 进来 一 批 原料 ， 如 果 原 料 充足 ， 你 会 发 广播 给 所 有 车 间 ， 原 料 来 了 ， 快 来 开工 吧 。 如 果 进 来 的 原料 很 少 ， 只 够 一 
个 车 间 开 工 的 ， 你 可 能 只 会 通知 一 个 车 间 开 工 。 


为 什么 要 有 条 件 等 待 ? 考虑 生产 者 -消费 者 模型 ， 如 果 任务 队列 处 于 空 的 状态 ， 那 么 消费 者 线程 就 应 该 停工 等 待 ， 一 直 等 到 队列 不 空 为 止 。 如 果 没 有 条 件 等 待 ， 那 么 消费 者 线程 的 代码 可 能 会 写成 这 样 : 


Pthread mutex t m = PTHREAD MUTEX INITIALIZER; 
int WaitForTrue() 
{ 
pthread mutex lock(&m); 
while (conqdition is false)// 条 件 不 满足 
pthread mutex _ unlock(&m) ;// 解 锁 等 待 其 他 线程 改变 共享 数据 
Sleep (n) ;// 睡 眠 n 秒 后 再 次 加 锁 验 证 条 件 是 否 满 足 
pthread mutex lock (gm); 
} 
} 


如 果 条 件 不 满足 ， 就 只 能 睡眠 。 上 面 的 代码 虽然 也 能 满足 这 个 要 求 ， 但 存在 严重 的 效率 问题 。 考 虑 如 下 场景 : 解锁 之 后 ，sleep 之 前 ， 等 待 的 条 件 突然 满足 了 ， 但 很 不 幸 ， 该 线程 仍然 会 睡眠 n 秒 。 


很 自然 需要 这 么 一 种 机 制 : 线程 在 条 件 不 满足 的 情况 下 ， 主 动 让 出 互 斥 量 ， 让 其 他 线程 去 折腾 ， 线 程 在 此 处 等 待 ， 等 待 条 件 的 满足 一 旦 条 件 满足 ， 线 程 就 可 以 立刻 被 唤醒 。 线 程 之 所 以 可 以 安心 等 
待 ， 依 赖 的 是 其 他 线程 的 协作 ， 它 确信 会 有 一 个 线程 在 发 现 条 件 满足 以 后 ， 将 向 它 发 送信 号 ， 并 且 让 出 互 斥 量 。 如 果 其 他 线程 不 配合 (不 发 信号 ， 不 让 出 互 斥 量 ) ， 这 个 主动 让 出 互 斥 量 并 等 待 事件 发 生 的 
线程 就 真 的 要 等 到 花 儿 都 谢 了 。 


8. 


站 
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第 8 章 “理解 Linux 线 程 (2) 


第 7 章 介绍 了 线程 的 基本 接口 ， 这 些 基 本 接口 非常 重要 ， 掌 握 了 这 些 基 本 接口 ， 就 能 应 对 绝 大 多 数 的 应 用 场景 。 本 章 将 介绍 一 些 线程 相关 的 其 他 内 容 。 


1 线程 取消 


线程 可 以 通过 调用 pthread_cancel 函 数 来 请 求 取消 同一 进程 中 的 其 他 线程 。 


从 编程 的 角度 来 讲 ， 不 建议 使 用 这 个 接口 。 笔 者 对 该 接口 的 评价 不 高 ， 该 接口 实现 了 一 个 似是而非 的 功能 ， 却 引入 了 一 堆 问题 。 陈 硕 在 《Linux 多 线程 服务 器 编程 》 一 书 中 也 提 到 过 ， 不 建议 使 用 取消 接 
来 使 线程 退出 ， 个 人 表示 十 分 赞 


可 


.2 ”线程 局 部 存储 


errno 变 量 是 线程 局 部 存储 的 典型 案例 。 我 们 可 以 通过 该 案例 来 理解 引入 线程 局 部 存储 的 意义 。 


在 多 线程 引入 之 前 ， 由 于 进程 只 有 一 条 控制 流 ( 暂 不 考虑 信号 处 理 函 数 ) ， 因 此 当 函 数 调用 出 错时 ， 可 以 通过 设置 全 局 的 errno 来 提示 遇 到 的 错误 类 型 。 代 码 如 下 所 示 : 


int f = open (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Text/...); 
bi 
printf ("error %d encountered\n", errno); 


但 是 自从 引入 多 线程 之 后 ， 情 况 就 发 生 了 变化 。 如 果 errno 仍 然 是 进程 内 的 全 局 变量 ， 就 会 引起 混乱 。 考 虑 如 下 两 个 线程 分 别 执行 如 下 代码 : 


线程 1 
int f = open (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Text/...); 
i (£ x QO) 

printf ("error %d encountered\n",， errno); 线 程 2 
int s = socket (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/O0EBPS/Text/...); 
i 的 

printf ("error %d encountered\n", errno); 


当 两 个 线程 同时 执行 这 两 部 分 代码 并 且 几 乎 同时 出 错 的话 ， 后 一 个 出 错时 设置 的 errno 的 值 会 覆盖 前 一 个 出 错时 设置 的 errno。 因 此 至 少 有 一 个 输出 的 errno 是 不 对 的 。 


对 于 这 个 问题 ， 一 种 解决 的 方法 是 这 样 的 : 


int local errno 
int £ = open (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/..., &local errno) 
i 储 竺 功 

printf ("error %d encountered\n", local errno); 


这 种 方法 固然 可 以 做 到 对 多 线程 的 支持 ， 但 是 在 现实 中 不 具备 可 操作 性 。 大 量 的 函数 接口 已 经 存在 很 久 ， 改 变 接口 意味 着 不 兼容 历史 代码 。 对 errno 而 言 ， 比 较 好 的 方案 是 既 要 能 应 对 多 线程 ， 又 不 需要 
变 既 有 的 接口 。 


这 时 候 ， 线 程 局 部 存储 就 横 空 出 世 了 。 使 用 线程 局 部 存储 (Thread Local storage) 技术 就 能 满足 上 述 的 需求 。 该 技术 为 每 一 个 线程 都 分 别 维护 一 个 变量 的 副本 ， 尽 管 名 字 相同 却 分 别 存储 ， 并 行 不 


悖 。 
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用 


在 Linux 下 有 两 种 方法 可 以 实现 线程 局 部 存储 : 
-使 用 NPTL 提供 的 函数 。 


“ 使 用 编译 器 扩展 的 thread 关 键 字 。 


.3 ”线程 与 信号 


信号 出 现 地 要 比 线程 早 ， 所 以 设计 信号 时 ， 尚 没有 线程 。 在 引入 线程 之 后 ， 如 何 设计 信号 成 了 一 个 难点 。 既 要 保证 传统 的 语义 不 变 ， 又 要 设计 出 适用 于 多 线程 环境 的 信号 模型 ， 确 实 难度 不 小 。 


在 第 6 章 “ 信 号 ”一 章 中 ， 已 基本 讲 清楚 了 多 线程 和 信号 的 关系 ， 以 及 内 核 如 何 实现 。 在 此 ， 仪 仅 总 结 一 下 : 

“ 信号 处 理 函 数 是 进程 层面 的 概念 ， 或 者 说 是 线程 组 层面 的 概念 ， 线 程 组 内 所 有 线程 共享 对 信号 的 处 理 函 数 。 

“ 对 于 发 送 给 进程 的 信号 ， 内 核 会 任 选 一 个 线程 来 执行 信号 处 理 函 数 ， 执 行 完 后 ， 会 将 其 从 挂 起 信号 队列 中 去 除 ， 其 他 进程 不 会 对 一 个 信号 重复 响应 。 
:可 以 针对 进程 中 的 菜 个 线程 发 送信 号 ， 那 么 只 有 该 线程 能 响应 ， 执 行 相应 的 信号 处 理 函 数 。 

“ 信号 掩 码 是 线程 层面 的 概念 ， 信 号 处 理 泡 数 在 线程 组 内 是 统一 的 ， 但 是 信号 掩 码 是 各 自 独立 可 配置 的 ， 各 个 线程 独立 配置 自己 要 阻止 或 放行 的 信号 集合 。 


“ 挂 起 信号 〈 内 核 已 经 收 到 ， 但 尚未 递送 给 线程 处 理 的 信号 ) 既是 针对 进程 的 ， 又 是 针对 线程 的 。 内 核 维 护 两 个 挂 起 信号 队列 ， 一 个 是 进程 共享 的 挂 起 信号 队列 ， 一 个 是 线程 特有 的 挂 起 信号 队列 。 调 
函数 sigpending 返 回 的 是 两 者 的 并 集 。 对 于 线程 而 言 ， 优 先 北 送 发 给 线程 自身 的 信号 。 


上 面 这 些 内 容 ， 基 本 概括 了 多 线程 条 件 下 信号 的 模型 。 内 核 如 何 做 到 这 些 模型 ， 在 第 6 章 中 基本 都 有 介绍 ， 在 此 处 就 不 再 歼 述 了 。 


8.4 多 线程 与 fork () 


多 线程 和 fork 函 数 的 协作 性 非常 差 。 对 于 多 线程 和 fork， 最 和 


请 跟 我 再 念 一 遍 : 永远 不 要 在 多 线程 程序 里 面 


Linux 的 fork 函 数 ， 会 复制 一 个 
做 到 将 多 线程 全 部 复制 。 


多 线程 程序 在 fork 之 前 ， 其 他 线程 可 能 正 持 有 互 斥 量 处 理 临界 区 的 代码 。fork 之 后 ， 其 


下 面 


一 个 例子 来 描述 这 种 场景 : 


调 


fork。 


进程 ， 对 于 多 线程 程序 而 言 ，fork 函 数 复制 的 是 调 


fork 的 那个 线程 ， 


要 的 建议 就 是 永远 不 要 在 多 线程 程序 里 面 调用 fork。 


而 并 不 复制 其 他 的 线程 。fork 之 后 其 他 线程 都 不 见 了 。 


Linux 不 存在 forkall 语 义 的 系统 调用 ， 无 法 


他 线程 都 不 见 了 ， 那 么 互 斥 量 的 值 可 能 处 于 不 可 用 的 状态 ， 也 不 会 有 


他 线程 来 将 互 斥 量 解锁 。 


<stdio.h> 

<signal.h> 
<stdlib.h> 
<unistd.h> 

#include <pthread.h> 

#include <sys/wait.h> 

static void* worker (void* arg) 


{ 


#include 
#inclugde 
#include 
#include 


pthread detach (pthread self()); 
Por {£7F 站 
{ 
setenv ("foo", 
usleep (100); 


"bar", 1); 


eh NULL; 
Lie void sigalrm(int sig) 
l char a = 'a'; 

write (fileno(stderr), &a, 1); 
main() 
pthread t setenv thread; 


pthread create(&setenv thread, NULL, worker, 0); 


for (;;) 
{ 
pid t pid = fork(); 
if (pid 一 0) 
{ 
signal (SIGALRM, sigalrm); 
alarm(1); 
unsetenv ("bar"); 
exit (0); 
} 
wait3 (NULL, WNOHANG, NULL); 
usleep (2500); 
} 


return 0; 


上 面 的 代码 比较 简单 ， 凶 
过 执行 signal 函 数 ， 注 册 了 S 


alarm 注 册 的 闹钟 之 后 ， 只 执行 unsetenv 函 数 ， 然 后 就 会 调 


fork 创 建 的 子 进程 在 调 
处 理 函 数 不 应 该 被 执行 ， 自 然 也 就 不 应 该 打印 出 字母 ‘a”。 


可 是 实际 情况 是 : 


./thread fork 
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa^C 


选择 一 个 阻塞 的 线程 ， 


(gdb) bt 
#0 
#1 
#2 Ox00007fd5c5026f2a in 


gdb 调 试 下 ， 看 看 到 底 阻 塞 在 何 处 。 


#3 Ox0000000000400a6d in main () at fork.c:41 


可 以 看 出 调 


为 什么 ? 


现在 的 库 函 数 ， 为 了 做 到 可 重 入 ， 其 内 部 维护 的 变量 通常 会 使 


内 部 已 经 维护 了 一 个 互 斥 量 。 


unsetenv 的 时 候 ， 子 进程 就 被 卡 住 了 。 


建 了 一 个 线程 周期 性 地 执行 setenv 函 数 ， 修 改 环境 变量 。 主 线程 会 fork 子 进程 ， 子 进程 负责 执行 unsetenv 函 数 ， 同 时 调用 了 alarm， 一 秒 钟 后 会 收 到 SIGALRM 信 和 号 。 
GALRM 信 和 号 的 处 理 函 数 ， 即 向 标准 错误 打印 字母 'a' 。 


exit 退 出 。 


原因 何在 ? 在 某 些 情况 下 ， 子 进程 为 什么 不 能 及 时 退出 ， 以 至 于 过 了 1 秒 之 后 ， 子 进程 还 没有 退出 ? 


Unsetenv (name=0x400b24 "bar") at setenv.c:325 


互 斥 量 来 保护 。 这 些 锁 对 


对 于 父 进 程 而 言 互 斥 量 的 值 是 1 
就 一 直 是 1。 子 进程 调 


自然 没有 关系 ， 
unsetenv 函 数 时 ，“ 地 雷 ” 


父 进程 的 worker 线 程 的 解锁 操作 会 唤醒 子 进程 


下 面 是 内 核 get_futex_key 函 数 中 的 部 分 代码 : 
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因为 父 进程 中 有 线程 worker 不 停 
被 引爆 了 。unsetenv 无 法 获得 互 斥 量 ， 反 而 是 通过 调 有 


一 般 是 透明 的 ， 


也 加 锁 、 解 锁 。 但 是 子 进程 的 情况 就 不 同 了 ， 子 进程 中 没有 worker。 子 进程 


户 也 不 关心 。setenv 和 unsetenv 就 是 这 样 。 尽 管 上 述 代码 并 没有 显 式 地 定义 ， 但 是 进程 


子 进程 通 


因此 ， 在 正常 情况 下 子 进程 很 快 就 会 退出 ，alarm 约 定 的 1 秒 钟 时 间 还 未 到 就 退出 了 。 也 就 是 说 ， 信 号 


_11] lock wait private () at http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/OEBPS/Text/../nptl/sysdeps/unix/sysv/linux/x86_ 64 
0x00007fd5c50270f6 in _L lock 740 () from /lib/x86 64-linux-gnu/libc.so.6 


互 斥 量 中 维护 了 一 个 锁 的 值 : 0 表示 未 上 锁 ，1 表 示 已 上 锁 但 是 没有 等 待 线程 ，2 表 示 已 上 锁 ， 并 且 有 线程 等 待 该 锁 。 对 于 我 们 的 例子 而 言 ， 由 于 线程 每 100 微 秒 就 执行 一 次 setenv， 很 有 可 能 在 主线 程 调 
fork 创 建 子 进程 的 瞬间 ， 互 斥 量 的 值 是 1。 而 这 个 值 1 被 拷贝 到 了 子 进 程 。 


创建 成 功 开始 ，setenv 相 关 的 互 斥 量 的 值 


futex 系 统 调 有 


陷入 休眠 ， 内 核 将 其 挂 入 对 应 的 等 待 队列 。 


if (!fshared) { 


if (unlikely(!access ok (VERIFY WRITE, uaddr, sizeof (u32)))) 


return -EFAULT; 
key->private.mm = mm; 
key->private.address = address; 
get futex key refs (key); 
return 0; 


新 建立 的 futex 使 用 mm 结构 指针 和 地 址 address 作 为 futex 的 键 值 ， 由 于 父子 进程 之 间 并 不 共享 mm_struct， 也 就 是 说 子 进程 的 futex 和 父 进 程 futex 并 不 共享 等 待 队 列 。 换 句 话说 ， 父 进程 通过 setenv 解 
锁 时 ， 根 本 就 不 会 唤醒 子 进程 。 因 此 ， 子 进程 永远 都 不 可 能 被 唤醒 了 。 


这 仅仅 是 setenwWunsetenv 函 数 ， 库 函数 中 类 似 这 种 的 函数 并 不 少见 
: malloc 函 数 的 内 部 实现 一 定 会 有 锁 。 
printf 系 列 的 函数 ， 其 他 线程 可 能 持 有 stdout/stdetr 的 锁 。 


' syslog 函 数 内 部 实现 也 会 用 到 锁 。 


综合 上 面 的 讨论 ， 唯 一 安全 的 做 法 是 ，fork 之 后 子 进程 立即 调用 exec 执 行 另 外 的 程序 ， 彻 底 断 绝 子 进程 与 父 进程 之 间 的 关系 ， 注 意 是 立即 ， 不 要 在 调用 exec 之 前 执行 任何 语句 ， 哪 怕 是 不 起 眼 的 
printf 。 


第 9 章 ”进程 间 通 信 : 管道 


在 Linux 系 统 中 ， 有 时 候 需要 多 个 进程 相互 协作 ， 共 同 完成 某 项 任务 。 进 程 之 间或 线程 之 间 有 时 候 需要 传递 消息 ， 有 时 候 需要 同步 来 协调 彼此 的 工作 。 接 下 来 的 3 章 将 讲述 Linux 中 的 进程 间 通 信 


(interprocess communication, 或 者 IPC) 。 


在 第 6 章 讲 信号 时 曾 提 到 ， 信 号 也 是 进程 间 通 信 的 一 种 机 制 ， 尽 管 其 主要 作用 不 是 这 个 。 一 个 进程 向 另外 一 个 进程 发 送信 和 号， 传递 的 信息 是 信号 编号 。 当 采用 sigqueue 函 数 发 送信 号 时 ， 还 可 以 在 信号 
上 绑 定 数据 ( 整 型 数字 或 指针 ) ， 增 强 传递 消息 的 能 力 。 尽 管 如 此 ， 还 是 不 建议 将 信号 作为 进程 间 通 信 的 常规 手段 ， 原 因 在 信号 那 一 章 中 已 经 详细 介绍 过 了 


在 第 7 章 讲 线程 时 曾 提 到 ， 线 程 在 Linux 中 被 实现 为 轻 量 级 的 进程 ， 线 程 之 间 的 同步 手段 ( 互 斥 量 和 条 件 等 待 ) ， 本 质 上 也 是 进程 间 通 信 。 


进程 间 通 信 的 手段 ， 大 体 可 以 分 成 以 下 两 类 : 


第 一 类 是 通信 类 。 这 类 手段 的 作用 是 在 进程 之 间 传 递 消息 ， 交 换 数 据 。 若 细 分 下 来 ， 通 信 类 也 可 以 分 成 两 种 ， 一 种 是 用 来 传递 消息 的 (比如 消息 队列 ) ， 另 外 一 种 是 通过 共享 一 片 内 存 区 域 来 完成 信息 
的 交换 的 (比如 共享 内 存 ) ， 如 图 9-1 所 示 。 


第 二 类 是 同步 类 。 这 类 手段 的 目的 是 协调 进程 间 的 操作 。 某 些 操 作 ， 多 个 进程 不 能 同时 执行 ， 否 则 可 能 会 产生 错误 的 结果 ， 这 就 需要 同步 类 的 工具 来 协调 。 主 : 


可 


同步 类 手段 如 图 9-2 所 示 。 


从 历史 的 角度 来 说，Linux 下 进程 间 通 信 的 手段 基本 上 是 从 Unix 平 台 继承 而 来 的 。 


管道 是 第 一 个 广泛 应 用 的 进程 间 通 信 手 段 。 日 常 在 终端 执行 shell 命 令 时 ， 会 大 量 用 到 管道 。 但 管道 的 缺陷 在 于 只 能 在 有 亲缘 关系 (有 共同 的 祖先 ) 的 进程 之 间 使 用 。 为 了 突破 这 个 限制 ， 后 来 引入 了 命 
名 管道 。 


管道 


流 套 接 字 


数据 传输 


System V 
消息 队列 
POSIX 
消息 队列 


数据 报 套 接 字 


文件 映射 


图 9-1 通信 类 工具 


接 下 来 AT&T 的 贝尔 实验 室 和 加 州 大 学 伯克利 分 校 的 伯克利 软件 发 布 中 心 (BSD) 分 别 开 发 出 了 


文件 锁 
( flock ) 


记录 锁 
( fcntl ) 


System V 


信号 量 


POSIX 


| 


信和 号 量 


eventfd 


线程 相关 


图 9-2 同步 类 工具 


有 名 信号 量 


风格 他 异 的 进程 间 通 信 手 段 。 前 者 通过 对 早期 的 进程 间 通 信 手 段 的 改进 和 扩充 ， 开 发 出 System V IPC， 


包括 消息 队列 、 信 号 量 和 共享 内 存 。 但 是 这 些 方法 ， 将 进程 间 的 通信 始终 局 限 在 单个 计算 机 这 个 范围 之 内 。BSD 则 走 了 一 条 完全 不 同 的 道路 ， 开 发 出 了 套 接 字 (socket) ， 跳 出 了 单机 的 限制 ， 可 以 实现 不 
同 计算 机 之 间 的 进程 间 通 信 。Linux 将 System V IPC 和 BSD socket 都 继承 了 下 来 ， 丰 富 了 进程 间 通 信 的 方法 。 


System V 1PC 方 法 出 现 地 比较 早 ， 几 乎 所 有 的 Unix 平 台 都 支持 System V IPC， 其 可 移植 性 较 好 ， 但 是 在 使 用 过 程 中 也 暴露 出 一 些 弱 点 。POSIX IPC 提 供 了 和 System V IPC 相 对 应 的 工具 ( 它 也 包括 消 
息 队列 、 信 号 量 和 共享 内 存 ) ， 它 的 出 现 晚 于 System V IPC。System V IPC 广 泛 应 用 了 一 段 时 间 后 ， 才 开始 设计 POSIX IPC 的 ， 因 此 ， 设 计 者 可 以 借鉴 System V 1PC 的 长 处 ， 避 免 其 缺点 。 从 设计 的 角度 


上 讲 ，POSIX IPC 是 优 于 System V IPC 的 ， 接 口 简单 ， 易 于 使 有 


。 但 是 POSIX IPC 的 可 移植 性 并 不 如 System V IPC。 


下 面 将 分 别 介绍 进程 间 通 信 的 工具 。 其 中 的 套 接 字 在 后 面 会 有 专门 的 章节 来 介绍 ， 就 不 在 进程 间 通 信 部 分 提 及 了 。 考 虑 到 进程 间 通 信 的 内 容 比 较 多 ， 所 以 一 共 分 成 三 章 依次 介绍 ， 本 章 将 主要 介绍 管道 


和 命名 管道 
9.1 管道 


管道 是 最 早出 现 的 进程 间 通 信 的 手段 。 在 shell 中 执行 命令 ， 


经 常会 将 上 一 个 命令 的 输出 作为 下 一 个 命令 的 输入 ， 由 多 个 命令 配合 完成 一 件 


在 图 9-3 中 ， 进 程 who 的 标准 输出 ， 通 过 管道 传递 给 下 游 的 wc 进程 作为 标准 输入 ， 从 而 通过 相互 配合 完成 了 一 件 任务 。 


情 。 而 这 就 是 通过 管道 来 实现 的 。 


volwe 


who 进程 wc -1 进程 
标准 输出 标准 输入 标准 输入 出 


图 9-3 管道 的 示意 图 


管道 的 作用 是 在 有 亲缘 关系 的 进程 之 间 传 递 消息 。 所 谓 有 亲缘 关系 ， 是 指 有 一 个 共同 的 祖先 。 所 以 管道 并 非 只 能 用 于 父子 进程 之 间 ， 也 可 以 用 在 兄弟 进程 之 间 ， 还 可 以 用 于 祖 孙 进程 之 间 甚 至 是 叔 侄 进 
程 之 间 。 总 而 言 之 ， 只 要 共同 的 祖先 曾经 调用 了 pipe 函 数 ， 打 开 的 管道 文件 就 会 在 fork 之 后 ， 被 各 个 后 代 进 程 所 共享 。 打 开 的 管道 文件 ， 就 像 是 创建 了 一 个 家 族 私 密 场 所 ， 由 远 祖 进程 来 创建 ， 家 族 所 有 成 
员 都 知晓 。 家 族 成 员 可 以 将 消息 存放 进 该 私密 场所 ， 等 待 另外 一 个 接头 的 家 族 成 员 来 取 走 消息 ， 阅 后 即 焚 。 


严格 来 说 ， 家 族 里 面 的 多 个 进程 都 可 以 往 同一 个 秘密 场所 里 面 扔 消息 ， 也 可 以 都 从 同一 个 秘密 场所 里 面 取 消息 ， 但 是 真 的 这 么 做 的 话 又 会 存在 风险 。 管 道 实质 是 一 个 字 节 流 ， 并 非 前 面 提 到 的 消息 ， 没 
有 消息 的 边界 。 如 果 多 个 进程 发 送 的 字 节 流 混在 一 起 ， 则 无 法 辨认 出 各 自 的 内 容 。 所 以 一 般 是 两 个 有 亲缘 关系 的 进程 用 管道 来 通信 。 从 程序 设计 的 角度 来 诗 ， 当 进程 调用 pipe 函 数 时 ， 哪 两 个 有 亲缘 关系 的 


进程 使 用 该 管道 来 通信 应 是 事先 约定 好 的 ， 其 他 有 亲缘 关系 的 进程 不 应 该 进来 搅局 。 其 他 进程 想 通信 怎么 办 ? 那 就 创建 它们 之 间 需 要 用 的 另外 的 管道 。 

前 面 曾 提 到 过 ， 管 道中 的 内 容 是 阅 后 即 焚 的 ， 这 个 特性 指 的 是 读 取 管道 内 容 是 消耗 型 的 行为 ， 即 一 个 进程 读 取 了 管道 内 的 一 些 内 容 之 后 ， 这 些 内 容 就 不 会 继续 在 管道 之 中 了 。 一 般 来 讲 管道 是 单 向 的 。 
一 个 进程 负责 往 管 道里 面 写 内 容 ， 另 外 一 个 进程 读 取 管道 里 的 内 容 。 若 两 个 有 亲缘 关系 的 进程 发 扬 二 杆子 精神 ， 都 要 往 管 道里 面 写 ， 都 要 往 管 道里 面 读 ， 自 然 也 是 可 以 的 ， 但 是 管道 中 的 内 容 可 能 会 变 得 混 
乱 ， 从 而 无 法 完成 通信 的 任务 。 如 果 两 个 进程 之 间 想 双向 通信 怎么 办 ? 可 以 建立 两 个 管道 ， 如 图 9-4 所 示 。 


写 人 管道 1 读 取 


图 9-4 利用 两 个 管道 双向 通信 


管道 是 一 种 文件 ， 可 以 调用 read、write 和 close 等 操作 文件 的 接口 来 操作 管道 。 另 一 方面 管道 又 不 是 一 种 普通 的 文件 ， 它 属于 一 种 独特 的 文件 系统 :pipefs。 管 道 的 本 质 是 内 核 维护 了 一 块 缓冲 区 与 管 
道 文件 相关 联 ， 对 管道 文件 的 操作 ， 被 内 核 转换 成 对 这 块 缓冲 区 内 存 的 操作 。 下 面 我 们 来 看 一 下 如 何 使 用 管道 。 


9.2 ”命名 管道 FIFO 


上 一 节 介绍 的 管道 也 被 称 为 无 名 管道 。 这 种 管道 因为 没有 实体 文件 与 之 关联 ， 靠 的 是 世代 相传 的 文件 描述 符 ， 所 以 只 能 应 用 在 有 共同 祖先 的 各 个 进程 之 间 。 对 于 没有 亲缘 关系 的 任意 两 个 进程 之 间 , 无 
名 管道 就 爱 莫 能 助 了 。 


命名 管道 就 是 为 了 解决 无 名 管道 的 这 个 问题 而 引入 的 。 FIFO 与 管道 类 似 ， 最 大 的 差别 就 是 有 实体 文件 与 之 关联 。 由 于 存在 实体 文件 ， 不 相关 的 没有 亲缘 关系 的 进程 也 可 以 通过 使 用 FIFO 来 实现 进程 之 间 
的 通信 。 


与 无 名 管道 相 比 ， 命 名 管道 仅仅 是 披 了 一 件 马甲 ， 其 核心 与 无 名 管道 是 一 模 一 样 的 。 内 核 的 fs/fifo.c 文 件 仅 有 153 行 ， 说 白 了 ， 这 简短 的 代码 只 干 了 两 件 事 : 


“ 从 外 表 看 ， 我 是 一 个 FIFO 文 件 ， 有 文件 名 ， 任 何 进程 通过 文件 名 都 可 以 打开 我 。 


“ 我 的 内 心 与 无 名 管道 是 一 样 的 ， 支 持 的 文件 操作 与 无 名 管道 也 是 一 样 的 。 


无 名 管道 pipe 和 命名 管道 FIFO 在 内 核实 现 部 分 有 很 大 的 重 硬 ， 都 属于 管道 文件 系统 (pipefs) 。 无 名 管道 ， 分 裂 成 了 读 取 文 件 描述 符 和 写 入 文件 描述 符 。 而 命名 管道 则 将 两 个 描述 符合 二 为 一 ， 如 果 是 
读 打开 ， 就 如 同 获取 到 了 无 名 管道 的 读 取 文 件 描述 符 ; 如 果 是 写 打开 ， 就 如 同 获取 到 了 无 名 管道 的 写 入 文件 描述 符 。 这 种 本 质 上 的 一 致 ， 造 成 FIFO 的 读 写 控制 和 无 名 管道 的 读 写 控制 是 一 模 一 样 的 ， 因 此 在 


本 节 一 并 介绍 。 


影响 管道 或 FIFO 文 件 读 写 行为 的 因素 有 : 


:当前 管道 中 存在 的 字 节 数 p。 

: 是 否 有 O_NONBLOCK 标 志 位 。 

* 管道 的 最 大 容量 PIPE_BUF 和 要 读 写 的 字 节 数 n 的 关系 。 
“ 读 写 端 是 否 都 存在 。 


管道 文件 的 读 写 中 一 个 很 重要 的 标志 位 是 O_NONBLOCK， 该 标志 位 会 影响 读 写 的 行为 模式 。 


对 于 无 名 管道 ，Linux 提 供 了 特有 的 pipe2 函 数 ， 该 函数 的 接口 如 下 : 


#define GNU SOURCE 
#include <unistd.h> 
int pipe2 (int pipefd[2], int flags); 


可 选 的 flag 就 有 O_NONBLOCK。 


对 于 命名 管道 FIFO， 打 开 文 件 时 ， 可 以 带 上 O_NONBLOCK 标 志 位 来 控制 读 写 的 行为 (当然 了 ， 对 于 FIFO 文 件 ，O_NONBLOCK 也 会 影响 打开 的 行为 ) 。 


如 果 打开 时 ， 忘 记 带 上 O_NONBLOCK 标 志 位 ， 那 该 如 何 补救 呢 ? 答案 是 用 fcntl 这 把 文件 控制 的 瑞士 军刀 。 


通过 如 下 代码 ， 可 以 给 管道 文件 加 上 O_NONBLOCK 标 志 位 : 


int flags = fentl (fd,F GETFL); 
flags |= O NONBLOCK; 
fcnt1l (fd,F_SETFL, flags); 


相反 的 ， 如 果 打 开 时 ， 带 有 O_NONBLOCK 标 志 位 ， 而 后 面 又 想 取消 该 标志 位 ， 又 该 怎么 做 ? 


int flags = fentl (fd,F GETFL); 
flags &= ~O NONBLOCK; 
fcnt1l (fd,F_SETFL, flags); 


花 开 两 人 打 ， 各 表 一 枝 。 先 来 说 说 从 FIFO 或 管道 读 取 端 读 ， 如 表 9-3 所 示 。 


表 9-3 ”从 一 个 包含 pP 字 节 的 管道 或 FIFO 读 取 n 字 节 的 含义 


p= 二 0 上 且 p=0 且 
存在 写 入 端 描述 术 符 尚 所 有 写 入 端 描述 术 符 均 
未 关闭 已 关闭 


未 启用 O_NONBLOCK 


启用 O_NONBLOCK 失败 (EAGAIN) 返回 0 (EOF) 


从 表 9-3 可 以 看 出 : 
“ O_NONBLOCK 标 志 位 影响 的 仅仅 是 当 管道 为 空 并 且 存在 写 入 端 时 的 行为 ， 读 取 操 作 的 行为 是 阻塞 ， 还 是 当即 返回 失败 。 


: 当 read 返 回 0 时 ， 表 示 已 经 遇 到 了 EOEF， 并 且 所 有 的 写 入 端 都 已 经 关闭 了 。 这 一 般 出 现在 管道 的 使 命 结 束 时 ， 此 时 读 取 端 也 可 以 关闭 了 。 


说 完 读 ， 然 后 说 写 (如 表 9-4 所 示 ) 。 对 于 管道 的 写 入 而 言 ，POSIX 标 准 规定 ， 如 果 一 次 写 入 的 数据 量 不 超过 PIPE_BUF 个 字 节 ， 必 须 确 保 写 入 是 原子 的 (atomic) 。 所 谓 原子 是 指 : 写 入 的 内 容 必须 确 


保 是 连续 的 ， 纵 然 有 多 个 进程 同时 往 管道 中 写 入 ， 写 入 的 内 容 也 不 会 被 其 他 进程 写 入 的 内 容 打 断 ， 本 次 写 入 的 内 容 不 会 混杂 其 他 进程 write 函数 写 入 的 内 容 。 标 准 规定 ，PIPE_BUF 最 少 为 512 字 节 ， 对 于 
Linux 而 言 ， 这 个 值 是 4096， 一 个 页 面 的 大 小 。 


表 9-4 向 管道 写 入 n 字 节 


无 NON_BLOCK 标志 位 有 NON_BLOCK 标志 位 


当空 闲 区 域 不 足以 容纳 n 字 节 时 ， 当 管 道 空 闲 区 域 不 足以 容纳 n 字 
陷 入 阻 守 塞 ， 等 待 读 取 进 程 取 走 管道 的 | 节 时 ， 立 即 返回 失败 ， 并 置 errno 为 
部 分 内 容 EAGAIN 


使 命 必 达 的 策略 。 当 空闲 区 Ee 尽力 而 为 的 策略 。 当 与 酒 管道 时 ， 

入 字 节 数 m>>PIPE_BUF 以 容纳 n 字 节 时 ， 隐 入 阻塞 ， 待 管 返回 ， 实 际 写 人 字 节 数 在 1~n 之 间 。 
ER AGE 空间 足够 时 再 写 人 人 用 户 需要 判断 返回 值 ， 来 确定 写 人 的 
写 入 字 节 一 定 是 n 字 节 数 


写 和 人 字 节 数 n 夺 PIPE_BUF 
(保证 写 入 的 原子 性 ) 


关于 单 次 写 入 的 长 度 超 出 PIPE_BUF， 内 核 不 能 保证 其 原子 性 这 个 事实 ,我 们 可 以 通过 一 个 简单 的 实验 来 验证 ， 示 例 代 码 如 下 : 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#include <unistd.h> 
#include <sys/types.h> 


#include <errno.h> 
#include <fcnt1.h> 
#define BUF 4K 4*1024 
#define BUF 8K 8*1024 
#define BUF 12K 12*1024 
int main(void) 


{ 


char a[BUF 4K]; 
char b[BUF 8K]; 


memset (a, 
memset (b, 
memset (c, 


'A', sizeof (a)); 


[ 
[ 
char c[BUF 12K]; 
( 
( 


‘Cc', 


int pipefd[2]; 
int ret = pipe (pipefd); 
if (ret == -1) 


{ 


'B', sizeof (b)); 


sizeof (c)); 


fprintf (stderr, "failed to create pipe (%s)\n",strerror (errno)); 


return 1; 
} 
pid t pid; 
pid = fork(); 
if (pid 一 0)// 第 一 个 子 进程 


{ 


close (pipefd[0]); 
int loop = 0 7 
while (loopt+ < 10) 


ret = Write (pipefd[1], a, sizeof(a)); 


printf ("apid=%d write %d bytes to pipe\n", getpid(), ret); 


} 


exit( 


0); 


} 

pid = fork(); 
if (pid == 0)// 第 二 个 子 进程 
{ 


close (pipefd[0]); 
int loop = 0; 
while (loopt+ < 10) 


ret = write (pipefd[1], b, sizeof (b)); 


printf ("bpid=%d write %d bytes to pipe\n", getpid(), ret); 


exit( 


} 
Pid = for 


0) 7 
K() 7 


if (pid 一 0)// 第 三 个 子 进程 


{ 


close (pipefd[0]); 
int loop = 0; 
while (loop++ <10) 


{ 


ret = Write (pipefd[1], c, sizeof(c)); 


printf ("cpid=%d write %d bytes to pipe\n", getpid(), ret); 


exit( 


} 


0); 


close (pipefd[1]); 


Sleep (1) 7 


int fd = open("test.txt", O WRONLY | O_CREAT | O_TRUNC，0644) 7 
char buf[1024*4] = {0}; 


int n=1 
while (1) 
{ 


Tot = 


bh 


read (pipefd[0], buf, sizeof (buf)); 
if (ret == 0) 


reak; 


printf ("n=%02d pid=%d read %d bytes from pipe buf[4095]=%c\n", 


write (fd, buf, ret); 


} 


return 0; 


nt+, getpid(), ret, buf[4095]); 


上 述 人 代码， 创建 了 三 个 子 进程 ， 第 一 个 子 进程 每 次 向 管道 写 入 4096 字 节 的 A 字符 ,循环 10 次 ;第 二 个 子 进程 向 管道 写 入 8192 字 节 (4096*2) 的 8 字符 ,循环 10 次 ;第 三 个 子 进程 每 次 向 管道 写 入 12288 
读 取 内 容 ， 写 入 到 test.txt 文 件 。 


字 节 (4096*3) 的 C 字 符 , 循环 10 次 。 父 进程 负责 从 管道 里 


由 于 三 个 子 进程 和 一 个 父 进程 是 同时 运行 的 ， 考 虑 到 进程 调度 的 


H 


因素 ， 每 次 执行 写 入 管道 和 从 管道 读 取 的 时 序 并 不 完全 一 样 。 因 此 每 次 执行 ， 产 生 的 test.txt 文 件 也 不 相同 。 对 于 每 次 写 入 8KB 和 每 次 写 


入 12KB 的 情况 ， 尽 管 管道 不 保证 原子 性 ， 但 是 其 内 容 也 不 是 每 次 都 必然 会 混入 其 他 进程 的 写 入 。 


多 次 执行 该 程序 ， 总 会 遇 到 某 次 8KB 或 12KB 的 写 入 ， 中 间 混 杂 了 其 他 字符 。 下 面 的 输出 是 某 次 执行 的 结果 : 


0000000 4343 4343 4343 4343 4343 4343 4343 4343 


x 


0003000 4242 4242 4242 4242 4242 4242 4242 4242 


x 


0005000 4343 4343 4343 4343 4343 4343 4343 4343 
六 


0008000 4141 4141 4141 4141 4141 4141 4141 4141 
*0009000 4242 4242 4242 4242 4242 4242 4242 4242 
*0010000 4141 4141 4141 4141 4141 4141 4141 4141 
x 


0015000 4343 4343 4343 4343 4343 4343 4343 4343 
*002d000 4242 4242 4242 4242 4242 4242 4242 4242 
*002e000 4141 4141 4141 4141 4141 4141 4141 4141 


x 


0030000 4242 
0032000 4141 
0033000 4242 
Q035000 4141 
Qs6009 4242 


003c000 


4242 


4141 


4242 


4141 


4242 


4242 


4141 


4242 


4141 


4242 


4242 


4141 


4242 


4141 


4242 


4242 4242 


4141 4141 


4242 4242 


4141 4141 


4242 4242 


4242 


4141 


4242 


4141 


4242 


4242 


4141 


4242 


4141 


4242 


从 地 址 002d000 到 地 址 002e000， 只 有 4KB 的 大 小 ， 可 是 号 


字符 。 唯 一 的 解释 就 是 某 次 8KB 的 写 入 内 容 被 中 途 打 断 ， 混 杂 了 其 他 进程 的 写 入 。 


县 面 的 内 容 却 是 0x42 即 B 字 符 。 从 程序 可 以 得 知 ，B 字 符 每 次 写 入 8KB， 这 里 却 只 有 4KB 的 内 容 ， 地 址 002d000 之 前 是 C 字 符 ，002e000 之 后 是 A 


多 次 执行 程序 ， 解 读 输 出 的 内 容 ， 从 某 些 输出 中 可 以 看 出 ，8KB 的 写 入 和 12KB 的 写 入 ， 都 不 是 原子 的 。 


当 写 入 内 容 长 度 不 超过 PIPE_BUF 时 ， 内 核 确保 写 入 操作 是 原子 的 这 条 性 质 非常 和 
是 安全 的 ， 即 使 多 个 进程 一 起 写 入 也 没关系 ， 内 核 会 保证 写 入 内 容 不 会 和 其 他 进程 的 


要， 尤其 是 在 有 多 个 进程 向 管道 写 入 的 情况 下 。 在 不 采取 其 他 同步 手段 的 情况 下 ， 消 息 体 小 于 PIPE_BUF 时 ， 写 入 管道 


写 入 内 容 混在 一 起 。 但 是 如 果 消 息 体 太 大 ， 长 度 超过 了 PIPE_BUF， 就 要 警惕 ， 需 要 采取 必要 的 同步 措施 ， 来 确保 消息 内 


容 不 会 混杂 其 他 进程 的 消息 ， 否 则 会 导致 无 法 正确 解析 消息 的 内 容 。 


9.4 ”使 用 管道 通信 的 示例 


前 文 介绍 了 无 名 管道 pipe 和 命名 管道 FIFO， 了 解 了 它们 的 很 多 性 质 ， 但 是 到 目前 为 止 ， 还 没有 介绍 如 何 利用 管道 来 实现 进程 间 通 信 。 


下 面 以 FIFO 为 例 ， 介 绍 如 何 使 用 管道 来 实现 一 个 客户 端 /服务 器 的 应 用 程序 ， 具 体 流程 如 图 9-12 所 示 。 


服务 货 进 程 


只 写 ,二 :去 只 写 
Sa 读 写 打开 ,但 是 只 读 Pe 


( 服务 器 回应 ) ( 服务 器 回应 ) 


Public FIFO 


品读 ( 客户 端 请 求 ) (客户 


客户 端 进程 客户 请 进程 


图 9-12 ”使 用 FIFO 实 现 客 户 端 服务 器 通信 


首先 服务 器 进程 会 创建 一 个 公开 的 众所周知 的 命名 管道 文件 ， 我 们 称 之 为 Public FIFO， 服 务 器 进程 以 O_RDWR 的 模式 打开 ,但 是 ， 服 务 器 进程 只 会 从 Public FIFO 中 读 取 内 容 ， 而 不 会 向 该 命名 管道 中 
写 入 内 容 。 之 所 以 服务 器 进程 要 以 O_RDWR 模式 打开 (而 不 是 O_RDONLY 模 式 打开 ) ， 是 因为 服务 器 进程 是 daemon 进 程 ， 当 所 有 的 客户 端 都 关闭 曾经 打开 的 Public FIFO， 只 有 自身 也 以 写 模式 打开 
Public FIFO， 服 务 器 进程 的 read 才 不 会 返回 0， 而 是 继续 阻塞 在 管道 ， 等 待 新 的 客户 发 来 请 求 。 


server fifo fd = open (PUBLIC FIFO NAME,O RDWR); 


这 个 Public FIFO 是 众所周知 的 ， 所 有 向 服务 器 进程 发 送 请 求 的 客户 端 程序 都 应 该 知道 该 Public FIFO 的 路 径 。 一 般 来 讲 ， 客 户 端 会 将 自己 的 请 求 作为 消息 体 写 入 Public 管 道 之 中 。 除 此 以 外 ， 客 户 端 会 
负责 创建 一 个 私有 的 FIFO， 用 来 和 服务 器 进程 进行 通信 。 服 务 器 进程 从 管道 中 读 取 了 请 求 之 后 ， 就 会 十 分 默契 地 将 回应 写 入 到 该 客户 端 创建 的 私有 的 FIFO 中 。 


问题 来 了 ， 服 务 器 进程 如 何 知道 该 往 哪 个 私有 的 FIFO 里 面 写 入 ， 对 应 的 客户 端 进程 才能 读 到 回应 信息 ”方法 有 很 多 ， 比 如 客户 端 可 以 将 自己 私有 的 FIFO 路 径 作为 请 求 的 一 部 分 ， 写 入 到 Public FIFO 
中 ， 服 务 器 进程 可 以 从 请 求 中 获得 对 应 客户 端的 私有 FIFO 路 径 。 还 有 一 种 方法 是 ， 私 有 FIFO 有 一 定 的 命名 规范 ， 比 如 /tmp/fifo.client_pid， 其 中 client_pid 代 表 客 户 端 进程 的 进程 1D。 只 要 客户 端 发 到 
Public FIFO 的 内 容 中 包含 自己 的 PID， 服 务 器 进程 就 能 根据 事先 的 约定 找到 对 应 的 私有 FIFO 文 件 ， 从 而 可 以 将 响应 写 入 对 应 的 私有 FIFO 中 。 


上 述 的 模型 解决 了 如 何 利 用 FIFO 编 写 客户 端 /服务 器 程序 这 个 问题 。 一 般 来 说， 不 会 采用 人 迭代 服务 的 方式 。 因 为 某 些 客户 请 求 处 理 起 来 可 能 非常 耗 时 ， 那 么 其 他 客户 端 发 过 来 的 请 求 就 会 被 阻塞 ， 得 不 
到 及 时 响应 。 比 较 常 见 的 是 提供 并 发 服务 ， 即 每 取出 一 个 请 求 ， 就 创建 一 个 进程 或 一 个 线程 来 响应 该 请 求 。 当 然 还 可 以 提供 线程 池 ， 让 空闲 的 线程 来 负责 处 理 客户 的 请 求 。 


然而 ， 还 有 一 个 关键 的 因素 没有 讨论 。 事 实 上 ， 客 户 端 写 入 的 内 容 并 不 是 结构 化 的 消息 ， 写 入 管道 之 后 ， 客 户 端 进程 写 入 的 不 过 就 是 字 节 流 。 那 么 ， 多 个 进程 都 向 管道 写 入 时 ， 如 何 正确 地 区 分 内 容 的 
边界 ， 正 确 地 拣 出 每 个 进程 的 发 送 内 容 就 成 了 通信 的 关键 。 


一 般 来 说 ， 为 了 区 分 内 容 的 边界 ， 有 以 下 办 法 : 


- 写 入 内 容 为 固定 长 度 。 


:特殊 分 隔 字 符 。 


， 具有 长 度 字段 的 头 。 


固定 长 度 的 方法 最 简单 ， 也 最 容易 想到 ， 但 是 对 管道 空间 的 使 用 效率 不 高 ， 如 图 9-13 所 示 。 写 入 的 内 容 长 度 固 定 ， 意 味 着 不 得 不 采用 最 长 消息 的 长 度 作为 固定 长 度 。 对 于 消息 体 长 度 参 差 不 齐 ， 短 消息 
占 大 多 数 而 最 长 消息 的 长 度 又 很 长 的 情况 ， 效 率 太 低 ， 大 大 降低 了 管道 容纳 消息 的 能 力 。 


二 -~ 


] 


上 
| 


< n 字 节 一 > n 字 节 一 一 > n 字 


9-13 固定 长 度 的 消息 


特殊 分 隔 字符 也 是 一 种 常用 的 方法 ， 如 图 9-14 所 示 。 比 如 事先 约定 消息 的 最 后 一 个 字符 总 是 换行 符 。 这 种 方法 有 几 个 浆 端 : 第 一 需要 扫描 数据 ， 逐 个 分 析 字 节 ， 直 到 遇 到 特殊 分 隔 字符 ;第 二 是 特殊 字 
符 撞 车 ， 如 果 消 息 体 中 真 的 存在 事先 选 定 的 特殊 字符 ， 那 就 不 得 不 转 义 。 


特殊 分 隔 字 符 


图 9-14 ”特殊 分 隔 字 符 为 结尾 的 消息 


具有 长 度 字段 的 头 是 比较 推荐 的 方法 ， 如 图 9-15 所 示 。 管 道中 提取 消息 分 成 两 步 : 


1) 提取 消息 的 长 度 ， 由 于 长 度 字 段 本 身 的 长 度 是 固定 的 ， 所 以 不 会 有 问题 。 


2) 根据 第 一 步 读 取 的 消息 长 度 len， 读 取 接 下 来 的 len 字 节 内 容 作为 消息 体 。 


9-15 以 长 度 字段 作为 头 的 消息 


值得 一 提 的 是 ， 从 内 核 版 本 3.4 开 始 ， 内 核 开始 提供 Packet 模 式 的 管道 。 所 谓 Packet 模 式 ， 就 是 写 入 管道 的 内 容 就 像 是 一 个 packet， 或 者 说 是 一 个 消息 ， 而 不 是 原始 的 字 节 流 。 


ret = Pipe2 (pipefd,O DIRECT) 


当 打开 管道 时 ， 带 上 O_DIRECT 标 志 位 ， 创 建 的 管道 就 是 Packet 模 式 的 管道 ， 代 码 如 下 所 示 。 当 然 了 ， 老 版 本 的 Linux 不 支持 O_DIRECT 标 志 位 ， 会 返回 EINVAL 错 误 。 


当 写 入 Packet 模 式 的 管道 时 ， 如 果 写 入 内 容 少 于 PIPE_BUF， 该 内 容 仍然 完全 占有 一 个 页 面 。 后 面 的 写 入 (不 管 是 本 进程 还 是 其 他 进程 ) 不 会 与 上 一 次 的 写 入 共用 一 个 页 面 。 当 写 入 内 容 大 于 PIPE_BUF 
时 ， 会 分 成 多 个 包 。 


从 Packet 模 式 管 道中 读 取 时 ， 存 放 读 取 内 容 的 buffer 有 PIPE_BUF 大 小 肯定 足够 了 。 如 果 指 定 的 buffer 太 小 ， 小 于 下 一 个 要 取出 的 Packet 的 大 小 ， 管 道 仍然 是 取出 Packet 大 小 ， 超 出 buffer 的 部 分 会 被 
丢弃 掉 而 不 是 仍旧 留 在 管道 的 内 存 缓冲 区 。 


这 种 模式 从 使 用 内 存 的 角度 来 看 有 点 浪费 ， 因 为 不 管 消息 多 大 ， 都 会 至 少 占有 1 个 页 面 的 大 小 。 但 是 从 编程 的 角度 来 看 接口 更 容易 使 用 。 


第 10 章 ”进程 间 通 信 : System V IPC 


下 面 三 种 类 型 的 进程 间 通 信 方 法 统称 为 System V IPC: 
“ System V 消 息 队 列 
“ System V 信 号 量 


“System V 共 享 内 存 


这 三 种 IPC 机 制 的 差别 很 大 ， 之 所 以 将 它们 放 在 一 起 讨论 ， 一 个 重要 的 原因 是 这 三 种 机 制 是 一 同 被 开发 出 来 的 。 它 们 最 早出 现在 20 世 纪 70 年 代 未 ，1983 年 三 者 出 现在 主流 的 System V Unix 系 统 上 ， 因 
此 这 三 种 机 制 被 统称 为 System V IPC。 


10.1 System V IPC 概 述 


System V IPC 相 关 的 接口 如 表 10-1 所 示 。 


表 10-1 System V IPC 编 程 接口 


消息 队友 共享 内 让 
头 文件 <sys/msg.h> <sys/sem.h> <sys/shm.h> 


msgsnd() 


执行 IPC semop() 访问 共享 内 存 区 的 内 存 数据 


msgrev() 


从 作用 上 看 ， 三 种 通信 机 制 各 不 相同 ， 但 是 从 设计 和 实现 的 角度 来 看 ， 还 是 有 很 多 风格 一 致 的 地 方 。 


System V IPC 未 遵循 “一 切 都 是 文件 ”的 Unix 哲 学 ， 而 是 采用 标识 符 ID 和 键 值 来 标识 一 个 System V IPC 对 象 。 每 种 System V IPC 都 有 一 个 相关 的 get 调 用 ( 表 10-1 中 的 “创建 或 打开 对 象 ”一 行 ) ， 
该 函数 返回 一 个 整 型 标识 符 ID，System V IPC 后 续 的 函数 操作 都 要 作用 在 该 标识 符 ID 上 。 


System V 1IPC 对 象 的 作用 范围 是 整个 操作 系统 ， 内 核 没 有 维护 引用 计数 。 调 用 各 种 get 函 数 返 回 的 ID 是 操作 系统 范围 内 的 标识 符 ， 对 于 任何 进程 ， 无 论 是 否 存在 亲缘 关系 ， 只 要 有 相应 的 权限 ， 都 可 以 
通过 操作 System V 1PC 对 象 来 达到 通信 的 目的 。 


启动 的 进程 依然 可 以 使 用 之 前 


System V 1IPC 对 象 具 有 内 核 持久 性 。 哪 怕 创 建 System V 1IPC 对 象 的 进程 已 经 退出 ， 哪 怕 有 一 段 时 间 没有 任何 进程 打开 该 |PC 对 象 ， 只 要 不 执行 删除 操作 或 系统 重启 ， 后 
创建 的 System V IPC 对 象 来 通信 。 


对 


此 外 ， 我 们 也 无 法 像 操 作文 件 一 样 来 操作 System V IPC 对 象 。System V IPC 对 象 在 文件 系统 中 没有 实体 文件 与 之 关联 。 我 们 不 能 用 文件 相关 的 操作 函数 来 访问 它 或 修改 它 的 属性 。 所 以 不 得 不 提供 专门 
的 系统 调用 (如 msgctl、semop 等 ) 来 操作 这 些 对 象 。 在 shell 中 无 法 用 ls 查看 存在 的 IPC 对 象 ， 无 法 用 rm 将 其 删除 ， 也 无 法 用 chmod 来 修改 它们 的 访问 权限 。 幸 好 Linux 提 供 了 ipcs、ipcrm 和 ipcmk 等 命令 
来 操作 这 些 对 象 。 


由 于 System V IPC 对 象 不 是 文件 描述 符 ， 所 以 无 法 使 用 基于 文件 描述 符 的 多 路 转 接 I/O 技 术 (select、poll 和 epoll 等 ) 。 这 个 缺点 会 给 编程 带 来 一 些 不 便 之 处 。 


10.2 System V 消 息 队 列 


第 9 章 介绍 的 管道 和 FIFO 都 是 字 节 流 的 模型 ， 这 种 模型 不 存在 记录 边界 。 如 果 从 管道 里 面 读 出 100 个 字 节 ， 你 无 法 确认 这 100 个 字 节 是 单 次 写 入 的 100 字 节 ， 还 是 分 10 次 每 次 10 字 节 写 入 的 ， 你 也 无 法 知 
晓 这 100 个 字 节 是 几 个 消息 。 管 道 或 FIFO 里 的 数据 如 何 解 读 ， 完 全 取决 于 写 入 进程 和 读 取 进程 之 间 的 约定 。 


从 这 个 角度 上 讲 ，System V 消 息 队 列 和 POSIX 消 息 队列 都 是 优 于 管道 和 FIFO 的 。 原 因 是 消息 队列 机 制 中 ， 双 方 是 通过 消息 来 通信 的 ， 无 需 花费 精力 从 字 节 流 中 解析 出 完整 的 消息 。 


System V 消 息 队列 比 管道 或 FIFO 优 越 的 第 二 个 地 方 在 于 每 条 消息 都 有 type 字 段 ， 消 息 的 读 取 进 程 可 以 通过 type 字 段 来 选择 自己 感 兴趣 的 消息 ， 也 可 以 根据 type 字 段 来 实现 按 消息 的 优先 级 进行 读 取 ， 
而 不 一 定 要 按照 消息 生成 的 顺序 来 依次 读 取 。 


内 核 为 每 一 个 System V 消 息 队列 分 配 了 一 个 msg_queue 类 型 的 结构 体 ， 其 成 员 变量 和 各 自 的 含义 如 下 所 示 : 


struct msg queue { 
struct kern ipc perm q perm; 
time t q stime; /* 上 一 次 msgsnd 的 时 间 */ 


time 七 qLrtimey /* 上 一 次 msgrcv 的 时 间 */ 

time 七 q ctime; /* 属性 变化 时 间 有 2 六 

unsigned long q_cbytes; /* 队列 当前 字 节 总 数 */ 

unsigned long q_qnum; / 数 * 

unsigned long q qbytes; 个 消息 队列 允许 的 最 大 字 节 数 */ 
pid t q lspid; 三 上 个 调 用 msgsnd 的 进程 ID*/ 

pidt q lrpid; /* 上 一 个 调用 msgrcv 的 进程 ID*/ 


struct list head q messages; 
struct list head q receivers; 
struct list head q_senders; 


大 部 分 字段 的 含义 都 是 比较 好 理解 的 ， 后 面 遇 到 相关 内 容 的 时 候 会 详细 讲述 这 些 字段 。 


10.3 System V 信 号 量 


10.3.1 -信号 量 概述 


System V 信 和 号 量 又 被 称 为 System V 信 号 量 集 ， 事 实 上 信号 量 集 的 叫 法 更 符合 实际 情况 。 信 号 量 的 作用 和 消息 队列 不 太一 样 ， 消 息 队列 的 作用 是 进程 之 间 传 递 消息 。 而 信号 量 的 作用 是 为 了 同步 多 个 进 
程 的 操作 。 


信号 量 是 由 E.W.Dijkstra 为 互 太 和 同步 的 高 级 管理 提出 的 概念 。 它 支持 两 种 原子 操作 ，wait 和 signal。wait 还 可 以 称 为 4own、P 或 lock，signal 还 可 以 称 为 up、V、unlock 或 post。 其 作用 分 别 是 原子 地 
增加 和 减少 信号 量 的 值 。 


一 般 来 说， 信号 量 是 和 某 种 预先 定义 的 资源 相关 联 的 。 信 号 量 元 素 的 值 ， 表 示 与 之 关联 的 资源 的 个 数 。 内 核 会 负责 维护 信号 量 的 值 ， 并 确保 其 值 不 小 于 0。 
信号 量 上 支持 的 操作 有 : 


“ 将 信号 量 的 值 设置 成 一 个 绝对 值 。 


“ 在 信号 量 当前 值 的 基础 上 加 上 一 个 数量 。 
“ 在 信号 量 当 前 值 的 基础 上 减 去 一 个 数量 。 


* 等待 信 号 量 的 值 等 于 0。 


在 上 述 操作 中 ， 后 两 个 可 能 会 陷入 阻塞 。 在 第 三 种 情况 中 ， 


当前 信号 量 的 值 不 为 0， 该 操作 会 陷入 阻塞 ， 直 到 信号 量 的 值 变 为 0 为 止 。 


这 些 操作 看 似 没有 什么 意义 ， 但 是 一 旦 将 信号 


信号 量 操作 


将 信号 量 的 值 i 
在 信 
在 信 


A 


[ 守 是 二 
“st 


量 当前 值 的 基 


待 信号 量 


所 
有 


= 全 | 


的 值 变 为 0 


使 


有 为 某 绝对 值 
当前 值 的 基础 上 加 上 


最 广泛 的 信号 量 是 二 值 信号 量 (binary semaphore) 。 


量 和 某 种 资源 关联 起 来 ， 就 起 到 了 同步 使 


当 信号 量 的 当前 值 小 于 


-个 数量 N 
上 减 去 一 个 数量 M 


减 去 的 值 时 ， 操 作 会 陷入 阻塞 。 当 信号 量 的 值 不 小 于 


某 种 资源 的 功效 ， 请 看 表 10-8。 
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YA y 
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bd 
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源 的 个 数 为 某 绝对 值 


能 会 公孙 1/z 


名 人 阻 : 


而 陷入 阻塞 


薰 


减 去 的 值 时 ， 内 核 会 唤醒 阻塞 进程 。 在 第 四 种 情况 中 ， 如 果 


| 


量 的 值 为 0。 当 进程 


被 占 


， 则 与 之 对 应 的 二 值 信号 


从 这 个 角度 看 ， 二 值 信 号 量 和 互 斥 量 所 起 的 作 


非常 类 似 。 那 信号 量 


对 于 这 种 信号 量 而 言 ， 它 只 有 两 种 合 
请 资源 时 ， 如 果 当 前 信号 量 的 值 为 0， 那 么 进程 会 陷入 阻塞 ， 直 到 有 其 他 进程 释放 资源 ， 


对 应 一 个 可 


法 值 : 0 和 1， 的 资源 。 若 兰 


前 有 资源 可 


， 则 与 之 对 应 的 二 值 信号 量 的 值 为 1; 


和 互 斥 量 有 何不 同 之 处 呢 ? 


俐 界 


来 保护 临界 
资源 。 


区 的 ， 所 谓 


互 斥 量 (mutex) 是 
因此 容许 多 个 进程 同时 使 


源 ， 


是 指 同 


有 个 很 有 意思 的 卫生 间 理 论 可 以 


钥匙 存放 处 。 如 果 某 人 需要 使 


卫生 间 时 ， 要 将 钥匙 归还 到 


假设 后 来 买 了 一 套 豪 宅 ， 家 里 有 8 个 一 模 一 样 的 卫生 间 和 8 把 通 
各 自 的 卫生 


数 小 于 或 等 于 8 时 ， 大 家 都 可 以 拿 到 一 把 钥匙 ， 各 自 使 


从 上 面 的 讨论 看 ， 信 号 量 是 互 斥 量 的 一 个 扩 


互 斥 量 的 关键 在 于 互 斥 、 排 它 ， 同 一 时 间 只 允许 一 个 线程 访问 临界 


进程 1 
pthread mutex lock(); 
/* 安 全 地 访问 临界 区 */ 


pthread mutex unlock(); 


进程 2 


来 阐述 互 斥 量 和 信号 量 的 
卫生 


区 别 。 


能 容许 一 个 进程 进入 。 而 信号 量 


互 斥 量 好 比 是 一 把 卫生 间 的 钥匙 ， 卫 生 间 只 有 一 个 
发 现 钥匙 存放 处 没有 钥匙 ， 那 么 他 就 需要 等 待 ， 直 到 卫生 间 的 当前 使 


(semaphore) 是 用 来 管理 资源 的 ， 资 源 的 个 数 不 一 定 是 1， 


将 信号 量 的 值 加 1 才能 被 唤醒 。 


， 钥 匙 也 只 有 一 把 。 需 要 
者 将 钥匙 归还 。 


使 


展 ， 由 于 资源 数目 增多 ,增强 了 并 行 度 。 但 是 这 仅仅 是 一 个 方 


的 钥匙 。 这 时 信号 量 就 横 空 出 世 了 。 信 号 量 的 值 的 含义 是 当前 可 
间 。 但 是 到 第 9 个 人 和 第 10 个 人 要 使 用 卫生 


更 重要 的 


虽 。 


区 


Pthread mutex lock(); 


/* 安 全 地 访问 临界 区 */ 
Pthread mutex unlock(); 


这 种 严格 的 互 斥 ， 


卫生 间 


时 ， 


的 钥匙 数 ， 最 初 有 8 把 钥匙 放 在 钥匙 存放 处 。 当 [ 
间 时 ， 发 现 已 经 没有 钥匙 了 ， 所 以 他 们 就 不 得 不 等 待 了 。 


若 资源 已 


可 能 同时 存在 多 个 一 模 一 样 的 资 


首先 要 去 钥匙 存放 处 取 走 钥匙 ， 当 使 


区 别 是 ， 互 斥 量 和 信号 量 解决 的 问题 是 不 同 的 。 


决定 了 解 铃 还 须 系 铃 人 ， 即 加 锁 进程 必然 也 是 解锁 进程 ， 代 码 如 下 所 示 : 


同时 使 


卫生 间 的 人 


而 信号 量 的 关键 在 于 资源 的 多 少 和 有 无 。 申 请 资源 的 进程 不 一 定 要 释放 资源 ， 信 号 量 同样 可 以 


信号 量 的 值 。 彼 此 之 间 通 过 信号 量 的 值 来 同步 。 


于 生产 者 -消费 者 的 场景 。 


在 这 种 场景 下 ， 生 产 者 进程 


只 负责 增加 信号 


量 的 值 ， 而 消费 者 进程 上 


只 负责 减少 


生产 者 进程 


和 二 值 信号 量 相 比 ，System V 信 和 号 量 


第 一 


第 二 ， 人 允许 同时 管理 多 种 资源 ， 由 多 个 计数 信号 量 组 成 的 一 个 集合 称 为 计数 信号 量 集 ， 每 个 计数 信号 量 管理 一 种 资源 。 比 如 第 一 种 资源 的 总 数 是 5， 第 二 种 资 


哪 种 资源 或 哪 几 种 资源 。 


坦率 来 讲 ，System V 信 号 量 有 点 设计 过 度 ， 第 二 种 扩 


10.4 System V 共 享 内 存 


10.4.1 ”共享 内 存 概述 


共享 内 存 是 所 有 1IPC 手 段 中 最 快 的 一 种 。 它 之 所 以 快 是 


消费 者 post 


企 两 个 维度 上 都 做 了 扩展 。 


， 资 源 的 数目 可 以 是 多 个 。 资 源 个 数 超过 1 个 的 信号 量 称 为 计数 信 


展 并 无 必要 ， 同 时 操作 集合 中 的 多 个 信号 量 的 能 力 是 多 余 的 ， 而 这 种 扩 | 


仿 旦 是 
马 写 里 


wait 


(counting semaphore) 。 


原 的 总 数 是 10。 在 使 


展 导致 了 编程 接 


因 


回顾 一 下 前 面 已 


“ 发 送信 息 的 一 方 ， 通 过 系统 调用 (write 或 msgsnd) 将 信息 从 用 户 层 拷贝 到 内 核 层 ， 由 内 核 暂 存 这 部 分 人 


为 共享 内 存 


一 旦 映射 到 进程 的 地 址 空间 ， 进 程 之 间 数 据 的 传递 就 不 须要 涉及 内 核 了 。 


经 讨论 过 的 管道 、FIFO 和 消息 队列 ， 任 意 两 个 进程 之 间 想 要 交换 信息 ， 都 必须 通过 内 核 ， 内 核 在 其 中 发 挥 了 中 转 站 的 作 


言 息 


“ 提取 信息 的 一 方 ， 通 过 系统 调用 (tead 或 msgrcv) 将 信息 从 内 核 层 提取 到 应 用 层 。 


图 


上 述 情景 如 


10-9 所 示 。 


不 便 。 


过 程 中 可 选择 


济 


write/msgsnd read/msgrcv 


IPC ( 管道 、FIFO 或 消息 队列 ) 


图 10-9 管道 、FIFO 和 消息 队列 应 用 层 与 内 核 的 交互 


图 10-10 ”共享 内 存 的 思想 


一 个 通信 周期 内 ， 上 述 过 程 至 少 牵扯 到 两 次 内 存 拷贝 (从 用 户 拷贝 到 内 核 空间 和 从 内 核 空 间 拷贝 到 用 户 空间 ) 和 两 次 系统 调用 ， 这 其 中 的 开销 不 容 小 凯 。 用 户 层 的 体验 固然 不 佳 ， 内 核 层 想必 也 是 不 堪 
其 扰 ， 双 方 的 内 心 都 是 月 省 的 。 


于 是 ， 不 堪 其 扰 的 内 核 提 出 了 一 个 新 的 思路 : 共享 内 存 ， 这 种 思路 可 以 通俗 地 概括 为 内 核 搭 台 ， 进 程 唱戏 。 简 单 地 说 ， 内 核 负 责 构 建 出 一 片 内 存 区 域 ， 两 个 或 多 个 进程 可 以 将 这 块 内 存 区 域 映 射 到 自己 
的 虚拟 地 址 空间 ， 从 此 之 后 内 核 不 再 参与 双方 通信 。 正 所 谓 : 


事 了 拂 衣 去 ， 深 藏身 与 名 。 


一 一 李白 《侠客 行 》 


进程 之 间 使 用 共享 内 存 通信 的 方式 如 图 10-10 所 示 。 


@@O 漳 建立 共享 内 存 之 后 ， 内 核 完 全 不 参与 进程 间 的 通信 ， 这 种 说 法 严格 来 讲 并 不 是 正确 的 。 因 为 当 进程 使 用 共享 内 存 时 ， 可 能 会 发 生 缺 页 ， 引 发 缺 页 中 断 ， 这 种 情况 下 ， 内 核 还 是 会 参与 进来 的 。 


进程 从 此 就 像 操作 普通 进程 的 地 址 空间 一 样 操作 这 块 共享 内 存 ， 一 个 进程 可 以 将 信息 写 入 这 片 内 存 区 域 ， 而 另 一 个 进程 也 可 以 看 到 共享 内 存 里 面 的 信息 ， 从 而 达到 通信 的 目的 。 


允许 多 个 进程 同时 操作 共享 内 存 ， 就 不 得 不 防范 竞争 条 件 的 出 现 ， 比 如 有 两 个 进程 同时 执行 更 新 操作 ， 或 者 一 个 进程 在 执行 读 取 操 作 时 ， 另 外 一 个 进程 正在 执行 更 新 操作 。 因 此 ， 共 享 内 存 这 种 进程 间 
通信 的 手段 通常 不 会 单独 出 现 ， 总 是 和 信号 量 、 文 件 锁 等 同步 的 手段 配合 使 用 。 


第 11 章 ”进程 间 通 信 : POSIX IPC 


与 System V IPC 一 样 ，POSIX IPC 也 包含 三 种 类 型 :; 


" POSIX 消 息 队 列 


“ POSIX 信 号 量 (又 分 为 命名 信号 量 和 无 名 信号 量 ) 


* POSIX 共 享 内 存 


POSIX IPC 的 出 现 要 比 System V IPC 晚 ， 因 此 POSIX IPC 的 设计 者 可 以 从 容 地 参照 System V IPC， 吸 收 其 设计 上 的 长 处 ,规避 其 设计 上 的 缺点 。 正 是 由 于 POSIX IPC 拥 有 后 发 优势 ， 所 以 总 体 来 
讲 ，POSIX IPC 要 优 于 System V IPC。 


表 11-1 汇 总 了 POSIX IPC 的 所 有 函数 。 


表 11-1 POSIX IPC 函 数列 表 


头 文件 <semaphore.h> <sys/mman.h> 


sem post 
sem wait 在 共享 内 存 区 域内 操作 数据 


sem getvalue 


执行 IPC mq send 
mq_receive 


mq getattr 
其 他 操作 mq_setattr 
mq _notify 


sem_init (初始 化 未 命名 信 量 


sem_destroy (销毁 未 命名 


11.1_POSIX IPC 概 述 


在 POSIX IPC 的 模型 中 ， 对 open、close 和 unlink 等 类 似 函 数 ( 见 表 11-1 创 建 或 打开 、 关 闭 和 删除 三 行 ) 的 使 用 与 传统 的 Unix 文 件 模型 一 致 ， 相 信 理 解 和 操作 起 来 应 该 很 容易 。 


与 打开 文件 一 样 ，POSIX IPC 对 象 也 有 引用 计数 ， 内 核 会 负责 维护 IPC 对 象 上 的 打开 引用 计数 。 它 所 带 来 的 影响 是 删除 POSIX IPC 对 象 的 操作 比较 简单 。 删 除 操作 仅仅 是 删除 IPC 对 象 的 名 字 ， 等 所 有 的 
进程 都 使 用 完毕 ，IPC 对 象 的 引用 计数 变 成 0 之 后 才 真 正 销毁 IPC 对 象 。 


11.2 POSIX 消息 队列 


POSIX 消 息 队 列 与 System V 消 息 队 列 有 一 定 的 相似 之 处 ， 信 息 交 换 的 基本 单位 是 消息 ， 但 也 有 显著 的 区 别 。 


最 大 的 区 别 当 属 在 Linux 实 现 里 POSIX 消 息 队 列 的 句柄 本 质 是 文件 描述 符 。 这 个 性 质 给 POSIX 消 息 队 列 带 来 了 巨大 的 优势 。 因 为 是 文件 描述 符 ， 所 以 可 以 使 用 I/O 多 路 复 用 系统 调用 (select、pol| 或 
epoll 等 ) 来 监控 这 个 文件 描述 符 。 


其 次 ，POSIX 消 息 队 列 提 供 了 通知 功能 ， 当 消息 队列 中 有 消息 可 用 时 ， 就 会 通知 到 进程 。 而 System V 消 息 队列 没有 通知 功能 ， 所 以 消息 队列 上 何 时 有 消息 进程 无 从 得 知 ， 只 能 阻塞 (msgrcv) 或 轮 询 
( 带 IPC_NOWAIT 标 志 位 的 msgrcv) 。 


最 后 ，System V 消 息 队列 的 消息 提取 要 比 POSIX 消 息 队列 灵活 。POSIX 消 息 队列 本 质 是 个 优先 级 队列 。 而 System V 消 息 中 存在 类 型 字段 ， 可 以 提取 类 型 等 于 某 值 的 消息 ， 这 点 POSIX 消 息 队列 是 做 不 到 
的 。 这 个 优势 让 System V 消 息 队列 在 与 POSIX 消 息 队列 的 对 决 中 ， 稍 稍 挽回 一 点 颜面 。 


11.3 POSIX 信号 量 


POSIX 信 号 量 和 System V 信 号 量 的 作用 是 相同 的 ， 都 是 用 于 同步 进程 之 间 及 线程 之 间 的 操作 ， 以 达到 无 冲突 地 访问 共享 资源 的 目的 。 


在 前 面 介绍 System V 信 和 号 量 的 时 候 也 曾 介绍 过 ，Edsger Dijkstra 提 出 了 PV 操作 。 所 谓 P 操 作 ， 代 表 荷 兰 语 中 的 Proberen (意思 是 尝试 ) ， 也 被 称 为 递减 操作 或 上 锁 操 作 。 在 POSIX 术 语 中 为 等 待 
(wait) 。 所 谓 V 操 作 代表 荷兰 语 单 次 Verhogen (意思 是 增加 ) ， 也 被 称 为 递增 操作 、 解 锁 操 作 和 发 信号 (signal) 操作 。 在 POSIX 术 语 中 为 挂 出 (post) 。 


POSIX 信 号 量 的 作用 和 System V 信 号 量 是 一 样 的。 但 是 两 者 在 接口 上 有 很 大 的 区 别 : 


“ POSIX 信 号 量 将 创建 和 初始 化 合 二 为 一 ， 这 就 解决 了 SystemV 中 可 能 出 现 竞争 条 件 的 问题 。 

“ POSIX 信 号 量 的 修改 信号 量 值 的 接口 (sem_post 和 sem_wait) ， 一 次 只 能 修改 一 个 信号 量 。 与 之 对 应 的 System V 信 号 量 其 本 质 是 信号 量 集 ， 其 下 的 semop 函 数 一 次 可 以 修改 多 个 信号 量 。 
“ POSIX 信 号 量 的 修改 信号 量 值 的 接口 (sem_post 和 sem_wait) ， 一 次 只 能 将 信号 量 的 值 加 1 或 减 1。 与 之 对 应 的 System V 信 和 号 量 的 semop 函 数 ， 能 够 加 上 或 减 去 一 个 大 于 1 的 值 。 

“ POSIX 信 号 量 并 没有 提供 一 个 等 待 信号 量变 为 0 的 接口 ， 而 System V 信 号 量 中 ，semop 函 数 则 提供 了 这 样 的 接口 。 


* POSIX 信 号 量 并 没有 提供 UNDO 操 作 ， 而 System V 信 号 量 则 提供 了 这 样 的 操作 。 


从 表面 看 ，System V 信 号 量 的 能 力 完胜 POSIX 信 号 量 ， 事 实 上 并 非 如 此 。System V 信 号 量 有 过 度 设计 之 嫌 ， 在 大 部 分 场景 下 ，System V 提 供 的 第 2、3 和 4 条 特性 都 没有 什么 用 处 ， 反 而 徒 增 接口 的 复 


杂 程 度 。 而 POSIX 信 号 量 提供 的 接口 异常 清晰 ， 易 于 理解 和 使 用 。 


POSIX 信 号 量 真正 比 System V 信 号 量 优越 的 地 方 在 于 ，POSIX 信 号 量 性 能 更 好 。 对 于 System V 信 和 号 量 而 言 ， 每 次 操作 信号 量 ， 必 然 会 从 用 户 态 陷 入 内 核 态 ， 可 以 想象 当 加 锁 和 解锁 操作 比较 频繁 的 时 


候 ， 时 间 上 的 开销 也 是 很 可 观 的 。 POSIX 信 和 号 量 则 不 然 。 只 要 不 存在 真正 的 两 个 线程 争夺 一 把 锁 的 情况 ， 那 么 修改 信号 量 就 只 是 用 户 态 的 操作 ， 并 不 会 牵扯 到 内 核 。 在 竞争 并 


能 要 远 远 高 于 System 


V 信 号 量 


有 得 必 有 失 。 因 为 POSIX 信 和 号 


A= 


量 不 会 每 次 操作 都 去 求助 内 核 ， 所 以 获得 了 性 能 上 的 提升 ， 但 却 因此 而 失去 了 内 核 的 强大 后 援 。System V 信 号 量 支持 UNDO 操 作 ， 
起 为 进程 还 债 的 责任 。 但 是 POSIX 信 号 量 却 没有 这 个 特性 。 


出 


POSIX 提 供 了 两 类 信号 量 : 有 名 信号 量 和 无 名 信号 量 。 这 两 种 信号 量 的 本 质 都 是 一 样 的 ， 从 图 11-4 可 以 看 出 ， 最 重要 的 sem_wait 接 口 和 sem_post 接 


呢 ， 各 自 应 用 在 哪些 场景 呢 ? 


sem destroy!) 


sem walt{) 
sem trywait{) 

sem post|) 
sem getvaluel() 


无 名 信号 量 


图 11-4 有 名 信和 号 量 和 无 名 信和 号 的 接口 


无 名 信号 量 ， 又 称 为 基于 内 存 的 信号 量 ， 由 于 其 没有 名 字 ， 没 法 通过 open 操 作 直 接 找到 对 应 的 信号 量 ， 所 以 很 难 直接 用 于 没有 关联 的 两 个 进程 


有 名 信号 量 由 于 其 有 名 字 ， 多 个 不 相干 的 进程 可 以 通过 名 字 来 打开 同一 个 信号 量 ， 从 而 完成 同步 操作 ， 所 以 有 名 信号 量 的 操作 要 方便 一 些 ， 适 


下 面 将 分 别 介 


有 名 信号 量 
sem close 
sem unlink!() 


() 


间 。 无 名 信号 量 多 用 于 线程 之 间 的 同步 。 


这 些 接口 。 


范围 也 比 无 名 信号 量 更 广 。 


11.4 内 存 映射 mmap 


消息 队列 和 信号 量 都 已 


这 是 因为 内 存 映 射 mmap 是 POSIX 共 享 内 存 的 基础 ， 内 存 映 射 完成 了 大 量 的 基础 性 工作 ， 临 门 一 脚 交 给 了 共享 内 存 。 事 实 上 POSIX 共 享 内 存 也 要 和 mmap 配 合 使 


POSIX 共 享 内 存 。 


还 是 间接 地 。 


当 你 执行 哪怕 是 最 简单 的 


经 介绍 i 


在 malloc 背 后 支撑 ; 


当 你 调 


过 了 ， 按 照 正常 的 逻辑 ， 本 节 应 该 介绍 POSIX 共 享 内 存 ， 为 什么 这 里 却 要 介绍 内 存 映 射 mmap 呢 ? 


s 命 令 时 ，mmap 系 统 调用 在 背后 都 会 默默 地 帮 你 加 载 动态 链接 库 ， 当 你 调用 malloc 函 数 分 配 大 于 MMAP_THRESHOLD 大 小 (默认 是 128KB) 的 内 存 时 ，mmap 系 统 调 有 


pthread_create 创 建 线程 时 ，mmap 系 统 调用 会 帮 你 分 配 好 线程 栈 ;， 当 你 创建 POSIX 信 号 量 时 ，mmap 会 默默 帮 你 


可 能 迄今 为 止 你 从 未 在 代码 中 直接 使 用 mmap， 但 它 就 静 静 地 身 在 那里 ， 对 你 的 帮助 不 增 也 不 减 。 


辟 一 段 空间 存放 futex 变 量 .…… 


不 激烈 的 情况 下 ，POSIX 的 性 


当 用 户 进 程 异 常 消亡 之 后 ， 内 核 会 肩负 


口 也 都 是 一 样 的。 如 此 说 来 ， 两 种 信号 量 有 何不 同 


。 不 理解 mmap 就 不 能 很 好 地 理解 


人 


更 重要 的 是 ， 纵 然 不 提 共 享 内 存 ，mmap 这 个 系统 调用 也 是 非常 重要 的 ， 其 重要 程度 远 远 超过 POSIX 共 享 内存 。 只 要 你 在 Linux 平 台 上 工作 ， 每 天 就 一 定 会 执行 无 数 次 的 mmap 系 统 调用 ， 不 管 是 直接 地 


11.25”POSIX 共 盏 
前 面 曾 经 讲述 过 ，mmap 系 统 调 有 


共享 内 存 


做 了 大 量 的 工作 ，POSIX 共 享 内 存 和 前 面 的 共享 文件 映射 相 比 ， 并 没有 什么 特殊 之 处 。 如 果 非 要 说 有 差别 ， 那 么 差别 就 是 ， 获 取 文 件 描述 符 的 方式 不 同 。 


普通 文件 映射 获取 fd 的 方式 


fd = open (filename, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/...); 


POSIX 共 享 内 存 获取 fd 的 方式 


fd = shm open (name, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15735/0EBPS/Text/.. 


addr = mmap (NULL, length, PROT_ READ|PROT WRITE,MAP SHARED, fd,0); 


) ;使 用 mmap 映 射 到 进程 地 址 空间 


POSIX 共 享 内 存 可 以 在 无 关 的 进程 之 间 共 享 一 个 内 存 区 域 。 和 System V 信 号 


载 在 /dewshm 下 的 tmpfs 文 件 系统 中 就 会 新 增 一 个 文件 。 


和 System V 共 享 内 存 相 比 ，POSIX 共 享 内 存 的 大 小 可 以 动态 调整 ， 因 
munmap 和 mmap 重 建 映射 。System V 共 享 内 存 的 大 小 在 创建 


总 体 来 讲 ，POSIX 共 享 内 存 要 优 于 System V 共 享 内 存 ， 建 


在 互联 网 时 代 ， 网 络 通信 编 程 已 经 是 一 个 程序 员 必 不 可 少 的 技能 之 一 。 


本 书 将 对 socket 套 接 字 进行 详细 的 分 析 ， 由 于 篇 幅 较 多 ， 所 以 将 内 容 分 为 三 章 来 讲述 。 本 章 主要 讲解 与 连接 相关 的 分 析 ， 包 括 socket、bind、connect、listen 和 accept 系 统 调 
这 里 假设 读者 有 一 定 的 Linux 网 络 编程 基础 ， 所 以 对 于 系统 调 有 


相 比 ，POSIX 使 


了 文件 系统 来 标识 共享 内 存 ， 并 


时 就 已 经 确定 ， 无 


第 12 章 “网络 通信 : 


的 解释 都 是 点 到 


12.1 ” ”socket 文件 描述 符 
socket 翻 译 成 中 文 是 插座 、 插 本 的 意思 ， 


统 调 


创建 一 个 套 接 字 ， 代 码 如 下 : 


而 在 网 络 编程 中 ， 其 被 翻译 为 “ 套 接 字 ” 


为 POSIX 共 享 内 存 是 基 ] 


无 法 再 做 调整 。 


建议 使 用 POSIX 共 享 内 存 。 


几乎 所 有 的 产品 都 会 


连接 的 建立 


涉及 网 络 操作 或 访问 。 在 Linux 编 程 环境 中 ， 系 统 提 供 了 socket 套 接 字 为 程序 员 提供 统一 的 网 络 编程 接口 。 


。Linux 环 境 下 ， 我 们 经 常 说 


“一 切 皆 文 件 ” 


为 止 ， 只 针对 不 常见 或 容易 忽视 的 问题 进行 详细 说 明 。 


。 因 此 套 接 字 也 被 视 为 一 种 文件 描述 符 。 首 先 ， 来 看 看 如 何 使 


操作 文件 的 接 


来 操作 共享 内 存 。 每 创建 一 个 POSIX 共 享 内 存 ， 挂 


文件 的 ， 所 以 可 以 很 方便 地 通过 ftruncate 函 数 来 调整 共享 内 存 的 大 小 。 


共享 内 存 的 使 用 者 可 以 通过 


及 相关 的 源码 追踪 。 


socket 系 


#include <sys/types.h> 
#include <sys/socket.h> 


/* See NOTES */ 


int socket (int domain, int type, int protocol); 


其 中 的 参数 解释 如 下 。 


“ domain: 用 于 指示 协议 族 名 字 ， 如 AF_INET 为 IPv4。 


* type: 


* protocol: 


成 功 创建 socket 后 ， 


用 于 指示 对 于 这 种 socket 的 具体 协议 类 型 。 
这 时 就 必须 指定 具体 的 协议 类 型 。 


会 返回 


那么 对 于 Linux 内 核 来 说， 如 何 知道 一 个 文件 描述 符 是 一 个 套 接 字 ， 还 是 一 个 


仍然 是 VFS 的 魔力 。 


用 于 指示 类 型 ， 如 基于 流通 信 的 SOCK_STREAM。 


一 个 文件 描述 符 。 失 败 时， 该 接 


返回 


加 | 


一 般 情 况 下 ， 使 用 前 两 个 参数 限定 后 ， 


普通 文件 呢 ? 其 


实 这 个 问题 也 可 以 扩 


在 第 1 章 中 ， 我 们 了 解 了 文件 描述 符 fd 与 内 核 文 件 结构 struct file 之 间 的 关系 ， 后 者 是 内 核 


的 实际 类 型 ， 它 会 直接 调 


员 变 量 


于 管理 文件 的 真正 结构 ， 其 中 的 成 员 变 量 
file->f_op 中 的 操作 函数 (这 样 的 处 理 ， 与 面向 对 象 语言 中 的 多 态 是 类 似 的 ) 。 


file->f_ op 为 VFS 支 


只 会 存在 一 种 协议 类 型 对 应 该 情况 。 这 时 ， 可 以 将 protocol 设 置 为 0。 但 是 在 某 些 情况 下 ， 会 存在 多 个 协议 


展 到 ， 内 核 如 何 知道 一 个 文件 描述 符 的 具体 类 型 ， 如 何 调 有 


实际 类 型 的 操作 函数 呢 ? 


等 的 所 有 文件 操作 。VFS 层 无 须 关心 该 文件 file 


对 于 套 接 字 来 说， 只 要 在 创建 套 接 字 时 ， 将 file->f_op 设 置 为 正确 的 套 接 字 操作 函数 即 可 。 该 操作 是 在 socket->sock_map_fd->sock_alloc file 中 完成 的 ， 代 码 如 下 : 


static int sock alloc file (struct socket *sock, struct file **f, int flags){ 


申请 一 个 struct file， 并 将 socket file ops 作 为 参数 来 传递 。 


在 alloc file 中 ， 会 将 soc 


尽管 Linux 内 核 是 使 有 


语言 编写 的 ， 但 是 其 应 有 


只 须 关心 struct file, 


而 无 须 关心 


体 的 对 象 类 型 了 ， 它 会 


12.2 ” 绑 定 |P 地 址 


了 很 多 面向 对 象 的 设计 思想 。 以 这 里 的 file 为 例 ， 内 核 利 有 
在 处 理 过 程 中 ， 调 用 正确 的 处 理 函 数 。 


在 成 功 创建 套 接 字 后 ， 该 套 接 字 仅仅 是 一 个 文件 描述 符 ， 并 没有 任何 地 址 与 之 关联 。 使 


况 下 ， 我 们 需 


12.3 ”客户 端 连接 过 


手工 指定 socket 使 F 


程 


哪个 IP 地 址 进行 发 送 。 这 时 ， 就 需 


使 


bind 系 统 调 


该 socket 发 送 数据 包 时 ， 由 了 
可、 


f_op 〈 对 象 操作 函数 指针 集合 ) 指向 具体 对 象 的 操作 函数 集合 


该 socket 没 有 任何 IP 地 址 ， 内 核 会 根据 策略 


。 这 样 一 来 ， 对 于 VFS 来 说 ， 就 


动 选择 一 个 地 址 。 但 是 ， 在 某 些 情 


12.3.1 connect 的 使 用 


connect 的 原型 为 : 


#include <sys/types.h> /* See NOTES */ 
#include <sys/socket.h> 
int connect (int sockfd, const struct sockaddr *addr, 


socklen t addrlen); 


其 中 的 参数 解释 如 下 : 

' int sockfd: 套 接 字 描 述 符 。 

“const struct sockaddr*addr: 要 连接 的 地 址 。 
' socklen_ taddrlen: 要 连接 的 地 址 长 度 。 


返回 值 0 表 示 成 功 ，-1 表 示 失 败 。 


connect 的 用 途 是 使 用 指定 的 套 接 字 去 连接 指定 的 地 址 。 对 于 


connect， 会 返回 -1 表示 失败 ， 同 时 错误 码 为 ElISCONN。 而 对 于 非 面向 连接 的 协议 ( 套 接 字 类 型 为 SOCK_DGRAM) ， 则 可 以 执行 多 次 connect (因为 这 时 的 connect 仅 仅 是 设置 了 默认 的 目的 地 址 ) 。 


面向 连接 的 协议 ( 套 接 字 类 型 为 SOCK_STREAM) ，connect 只 能 成 功 一 次 (当然 要 如 此 ， 因 为 真正 的 连接 已 经 建立 了 ) 。 如 果 重 复 调用 


对 于 TCP 套 接 字 来 说 ，connect 实 际 上 是 要 真正 地 进行 三 次 握手 ， 所 以 其 默认 是 一 个 阻塞 操作 。 那 么 是 否 可 以 写 一 个 非 阻塞 的 TCP connect 代 码 呢 ?这 是 一 个 合格 的 网 络 开发 工程 师 的 基本 功 ， 具 体 的 
实现 可 以 参看 UNPv1 的 实现 。 更 重要 是 要 理解 其 原理 ， 这 样 才能 在 需要 的 时 人 息 ， 信 手 牛 来 。 


12.4 ”服务 器 端 连 接 过 程 


12.4.1 listen 的 使 用 


服务 器 端 用 listen 来 监听 端口 ， 其 原型 为 : 


#include <sys/types.h> /* See NOTES */ 
#include <sys/socket.h> 
int listenl(int sockfd, int backlog); 


其 中 的 参数 解释 如 下 : 


" 参数 int sockfd: 成 功 创建 的 TCP 套 接 字 。 


“int backlog: 定义 TCP 未 处 理 连接 的 队列 长 度 。 该 队列 虽然 已 经 完成 了 三 次 握手 ， 但 服务 器 端 还 没有 执行 accept 的 连接 。APUE 中 说 ，backlog 只 是 一 个 提示 ， 具 体 的 数值 实际 上 是 由 系统 来 决定 的 。 后 面 


会 通过 学 习 内 核 源码 来 确定 这 一 点 。 


函数 的 返回 值 为 0， 表 示 成 功 ; -1 表示 失败 。 


12.5 TCP 三 次 握手 的 实现 分 析 


前 面 两 节 分 别 从 客户 端 和 服务 器 端的 系统 调用 的 角度 ， 来 分 析 和 学 习 TCP 的 连接 过 程 。 本 节 将 从 TCP 三 次 握手 的 数据 包 交 互 过 程 ， 来 研究 TCP 连 接 的 建立 。 如 果 不 熟悉 TCP 握 手 的 三 个 数据 包 ， 则 请 


阅读 相关 材料 。 


三 次 握手 的 过 程 如 图 12-1 所 示 。 


客户 端 
关闭 状态 


上 友 达 syn 包 


连接 状态 


图 12-1 


第 13 章 ”网络 通信 : 


第 12 章 学 习 了 Linux 套 接 字 的 创建 、 


监听 和 连接 ， 并 重点 分 析 了 TCP 建 立 连 接 时 的 三 次 握手 过 程 。 


监 监听 状态 JI 


! 疏 到 syn 包 


连接 状态 


TCP 三 次 握手 的 过 程 


数据 报 文 的 发 送 


13.1 “发送 相关 接口 


Linux 内 核 为 套 接 字 提 供 了 多 个 发 送 数据 的 接 


定义 如 下 : 


本 章 将 从 应 上 


层 到 内 核 来 研究 数据 包 的 发 送 过 程 。 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t sendl(int sockfd, const void *buf, size t len, int flags); 

ssize t sendtol(int sockfd, const void *buf, size t len, int flags, 
上 const struct sockaddr *dest addr, socklen t addrlen); 

ssize t sendmsg (int sockfd, const struct msghdr *msg, int flags); 


send 只 能 


态 ， 那 么 目的 地 址 dest_addr 与 地 址 长 
于 指明 目的 地 址 ， 而 msg.msg_iov 则 上 


于 保存 要 发 送 的 数据 。 这 三 个 系统 调 有 


都 支持 设置 指示 标志 位 flags。 


于 处 理 已 连接 状态 的 套 接 字 (注意 ， 从 第 11 章 的 内 容 已 经 知道 ， 无 论 是 UDP 还 是 TCP， 都 可 以 进行 连接 ) 
度 就 应 该 为 NULL 和 0， 不 然 就 可 能 会 返回 错误 。sendmsg 则 比较 特殊 ， 无 论 是 要 发 送 的 数据 还 是 目的 地 址 ， 都 保存 在 msg 中 。 其 中 msg.msg_name 和 msg.msg_lenF 


。 而 sendto 可 以 在 调 有 


时 ， 指 定 


目的 地 址 。 这 样 的 话 ， 如 果 套 接 字 已 经 是 连接 状 


全 ii 明 稍微 现代 些 的 系统 调用 ， 一 般 都 会 拥有 或 保留 一 个 指示 标志 参数 。 通 过 标志 位 flags， 可 以 从 容 地 为 系统 调用 增加 新 功能 ， 并 同时 兼容 老 版 本 。 第 1 章 中 介绍 的 dup、dup2 和 dup3 则 是 这 方面 的 一 


个 反面 典型 。 在 不 支持 flag 的 情况 下 ， 不 得 不 一 再 创建 新 的 dup 接 口 ， 直 到 dup3 加 入 了 对 flag 的 支持 为 止 。 


由 于 socket 同 时 还 是 文件 描述 符 ， 所 以 为 文件 提供 的 写 操作 (如 write、writev 等 ) 


13.2 ”数据 包 从 用 户 空间 到 内 核 空间 的 流程 


从 13.1 节 可 知 ，socket 套 接 字 在 发 送 数据 包 时 有 多 个 系统 调 


， 也 可 以 被 Socket 套 接 字 直接 调 


， 既 有 套 接 字 本 身 的 发 送 接 | 


， 又 可 以 


文件 描述 符 的 写 操作 。 这 些 不 同 的 接口 是 否 会 导致 数据 包 从 用 户 空间 发 送 到 内 核 空间 时 走向 不 


同 的 流程 呢 ? 下 面 让 我 们 通过 阅读 源码 来 回答 这 个 问题 。 


send 的 内 核实 现代 码 如 下 : 


SYSCALL DEFINEA (send, int, fd, void _ user *, buff, size t, len, 
unsigned, flags) 
{ A 所 
send 可 以 视 为 sendto 的 一 种 特例 ， 即 不 设置 目的 地 址 的 sendto 调 用 。 
所 以 内 核实 现 也 是 让 send 直 接 调 用 sendto。 
二 


return SYSs_sendto (fd，buff，1len，flags，NULL，0) 7， 


既然 其 内 核实 现 是 让 send 直 接 调 用 sendto， 那 么 ， 下 面 我 们 就 来 看 一 下 sendto 的 内 核实 现 ， 代 码 如 下 : 


SYSCALL DEFINE6 (sendto, int, fd, void _ user *, buff, size t, len, 
unsigned, flags, struct sockaddr _user *, addr, 
int, addr len) 


struct socket *sock; 
struct sockaddr storage address; 
int err; 
struct msghdr msg; 
struct iovec iov; 
int fput needed; 
/* 长 度 合法 性 检查 */ 
if (len > INT MAX) 
len = INT MAX; 
/* 从 文件 描述 符 获 得 套 接 字 socket 的 结构 */ 
sock = sockfd lookup light (fd, &err, &fput needed); 
if (!sock) .| 
goto out; 
/* 将 数据 转换 为 iovec 结 构 ， 来 调用 后 面 的 sendmsg */ 
iov.iov base = buff; 
iov.iov len = len; 
msg.msg_ name = NULL; 
msg.msg iov = &iov; 
msg.msg_ iovlen = 1; 
msg.msg_control = NULL; 
msg.msg_ controllen = 0; 
msg.msg namelen = 0; 
/* 如 果 设 置 了 地 址 ， 则 设置 msg_name */if (addr) { /* 将 地 址 参数 复制 到 内 核 变量 中 */ 
err = move addr to kernel (addr, addr len (struct sockaddr *)&address); 
if (err < 0) 
goto out put; 
msg.msg name = (struct sockaddr *) &address; 
msg.msg namelen = addr len; 


} 
/* 如 果 socket 设 置 了 非 阻塞 ， 则 消息 的 标志 设置 为 DONTWAIT (其 实 也 是 非 阻塞 的 语义 ) 
四 
/ 
if (sock->file->f flags & O NONBLOCK) 
flags |= MSG DONTWAIT; — 
msg.msg flags = flags; 
/* 调用 Sock_sendmsg 来 发 送 数 据 包 */ 
err = sock sendmsg(sock, &msg, len); 
out put: 
fput light (sock->file, fput needed); 
out: 
return err; 


} 


这 里 又 调用 到 sock_sendmsg 了 ， 从 名 字 上 就 能 感觉 到 它 可 能 也 会 被 第 三 个 接口 endmsg 所 调用 。 下 面 让 我 们 来 验证 这 个 猜想 。 


SYSCALL DEFINE3 (sendmsg, int, fd, struct msghdr _ user *, msg, unsigned, flags) 
{ 

int fput needed, err; 

struct msghdr msg_ sys; Ne 

/* 通过 文件 描述 符 获得 Socket 套 接 字 结构 */ 

struct socket *sock = sockfd lookup light (fd, &err, &fput needed); 


if (!sock) 
goto out; 
/* 调用 _sys_sendmsg 来 发 送 数据 包 */ 
err = _Sys_sendmsg (sock, msg, é&msg_ sys, flags, NULL); 


fput light (sock->file, fput needed); 
out: 
return err; 


接 下 来 进入 _sys_sendmsg， 代 码 如 下 : 


static int _ sys_ sendmsg(struct socket *sock, struct msghdr _ user *msg, 
struct msghdr *msg_sys, unsigned flags, 
struct used address *used address) 


struct compat msghdr _ user *msg compat = 
(struct compat msghdr _user *)msg; 
struct sockaddr storage address; 
struct iovec iovstack[UIO FASTIOV], *iov = iovstack; 
unsigned char ctl[sizeof (struct cmsghdr) + 20] 
_attribute _ ((aligned(sizeof(_ kernel size t)))); 
/* 20 is size of ipv6 pktinfo */ 
unsigned char *ctl buf = ctl; 
int err, ct1 len, iov size, total len; 
err = -EFAULT; 
/* 从 用 户 空间 得 到 用 户 消息 */ 
if (MSG CMSG COMPAT & flags) { 
/* 紧凑 消息 类 型 */ 
if (get compat msghdr (msg_sys，msg_compat) ) 
return -EFAULT; 
} else if (copy from user (msg_ sys, msg, sizeof(struct msghdr))) 
return -EFAULT; 
/* do not move before msg_sys is valid */ 
err = -EMSGSIZE; 
/* 消息 数据 块 个 数 检查 */ 
if (msg_ sys->msg iovlen > UIO MAXIOV) 
goto out; 
/* Check whether to allocate the iovec area */ 
err = -ENOMEM; 
/* 在 内 核 空间 申请 消息 数据 长 度 */ 
iov_ size = msg_sys->msg iovlen * sizeof(struct iovec); 
if (msg sys->msg iovlen > UIO FASTIOV) { 
iov = sock kmalloc (sock->sk, iov size, GFP KERNEL); 
if (liov) 
goto out; 


} 
/* This will also move the address data into kernel space */ 
/* 前 面 只 是 将 消息 头 ， 或 者 说 消息 的 结构 体 ， 复 制 到 内 核 空间 ， 现 在 是 将 消息 的 真正 内 容 ， 即 iov 的 内 容 复制 到 内 核 空间 */ 
if (MSG CMSG COMPAT & flags) { 
err = verify compat iovec (msg sys, iov, 
(struct sockaddr *) &gaddress, 
VERIFY READ); 
} else 
err = verify iovec(msg sys, iov, 
(struct sockaddr *) &address, 
VERIFY READ); 
if (err < 0) 


goto out freeiov; 
total_len = err;err = -ENOBUFS;/* 与 消息 数据 块 类 似 ， 复 制 控制 消息 块 ， 就 不 详细 描述 了 */ 
if (msg_sys->msg_controllen > INT MAX) 
goto out freeiov; 
ct1_ len = msg_sys->msg_controllen; 
if ((MSG CMSG COMPAT & flags) && ctl_len) { 
rT 三 
cmsghdr from user compat to kern(msg sys, sock->sk, ctl, 
sizeof (ct1)); 
if (err) 
goto out freeiov; 
ctl buf = msg_sys->msg_control; 
ctl len = msg_ sys->msg_controllen; 
} else if (ctl len) { 加 
if (ctl len > sizeof(ctl)) { 
Ctl buf = sock kmalloc(sock->sk, ctl len, GFP KERNEL); 
if (ctl buf 一 NULL) 
goto out freeiov; 
} 
err = -EFAULT; 
/* 
* Careful! Before this, msg sys->msg control contains a user pointer. 
* Afterwards, it will be a kernel pointer. Thus the compiler-assisted 
* Checking falls down on this. 
六 
/ 
if (copy_ from user(ctl buf, 
(void user force *)msg sys->msg control, 
ctl len)) - 站 2 


msg_sys->msg_control = ctl buf;}/* 设置 消息 标志 */ 
msg_ sys->msg flags = flags; 
/* 如 果 套 接 字 是 非 阻塞 的 ， 则 设置 消息 标志 MSG_DONTWAIT */ 
if (sock->file->f flags & O NONBLOCK) 
msg_sys->msg flags |= MSG DONTWAIT; 
/* 如 果 这 次 发 送 的 目的 地 址 与 上 次 成 功 发 送 的 目的 地 址 一 致 ， 那 就 可 以 省 略 安全 性 检查 */ 
if (used address && msg_sys->msg name && 
used address->name len 一 msg_sys->msg namelen && 
!memcmp (&used address->name, msg_sys->msg name, 
used address->name len)) { 
/* 调用 不 进行 安全 性 检查 的 函数 */ 
err = sock sendmsg nosec(sock, msg_sys, total len); 
goto out freectl; 


} 
/* 调用 sock _sendmsg， 需 要 安全 性 检查 ， 最 终 仍 然 会 调用 到 sock_send msg_nosec 函 数 */ 
err = sock sendmsg(sock, msg sys, total len); 
/* 如 果 本 次 发 送 成 功 ， 则 保存 当前 的 目的 地 址 < 三 
if (used address && err >= 0) { 
used address->name len = msg_sys->msg namelen; 
if (msg_sys->msg_ name) 
memcpy (&used_address->name, msg_ sys->msg name, 
used address->name len); 
} 
out freectl: 
if (ctl buf != ctl) 
sock kfree s(sock->sk, ctl buf, ctl len); 
out freeiov: 
if (iov != iovstack) 
Sock kfree s(sock->sk, iov, iov size); 
out: 
return err; 


LE: 


看 完了 _sys_ sendmsg， 我 们 可 以 确定 ， 无 论 是 哪个 发 送 数据 的 系统 调用 ， 最 终 都 会 调用 到 sock_sendmsg。 下 面 是 sock_sendmsg 的 相关 代码 : 


int sock sendmsg(struct socket *sock, struct msghdr *msg, size t size) 


{ 
/* kiocb 为 内 核 通用 的 IO 请 求 结构 */ 
struct kiocb iocb; 
struct sock iocb siocb; 
int ret; 
/* 初始 化 同步 的 内 核 TO 请 求 结构 */ 
init sync kiocb(&iocb, NULL); 
iocb.private = &siocb; 
/* 发 送 消 息 */ 
ret = sock sendmsg(&iocb, sock, msg, size); 
/* 返回 结果 表 表 该 消息 已 经 加 入 队列 ， 要 等 待 完成 事件 */ 
if (-EIOCBQUEUED == ret) 
ret = wait on sync kiocb(&iocb); 
Xeturn et 


这 里 _sock_sendmsg 只 是 做 了 安全 性 检查 ， 然 后 就 调用 了 _sock_sendmsg_nosec 函 数 。 再 继续 看 _sock_sendmsg_nosec， 代 码 如 下 : 


static inline int _ sock sendmsg nosec(struct kiocb *iocb, struct socket *sock, 
struct msghdr *msg, size t size) 
{ 
/* 获得 套 接 字 在 sock_sendmsg 中 设置 的 IO 请 求 ， */ 
struct sock iocb *si = kiocb to siocb (iocb) 
sock update classid(sock->sk); — 
/* 初始 化 套 接 字 的 IO 请 求 字段 */ 
si->sock = sock; 
si->scm = NULL; 
si->msg = msg; 
si->size = size; 
/* 根据 不 同 的 套 接 字 类 型 ， 调 用 其 发 送 数据 函数 */ 
return sock->ops->sendmsg (iocb, sock, msg, size); 


到 此 ， 我 们 完成 了 数据 包 从 用 户 空间 到 内 核 空间 的 流程 跟踪 。 接 下 来 的 数据 包 发 送 过 程 ， 将 根据 不 同 的 协议 ， 走 不 同 的 流程 。 


13.3 UDP 数据 包 的 发 送 流程 


前 文 已 经 跟踪 了 数据 包 从 用 户 空间 到 内 核 空间 的 流程 ， 本 节 将 以 比较 简单 的 UDP 协议 为 例 ， 继 续 跟 踪 数 据 包 的 发 送 流程 一 一 因为 UDP 是 无 连接 状态 的 协议 ， 所 以 不 会 给 我 们 的 代码 分 析 带 来 额外 的 麻 
烦 。 


UDP 的 sendmsg 操 作 函 数 为 udp_sendmsg， 代 码 如 下 : 


int udp sendmsg (struct kiocb *iocb, struct sock *sk, struct msghdr *msg, size t len) 
{ 
/* 从 inet 通 用 套 接 字 得 到 inet 套 接 字 */ 
struct inet sock *inet = inet sk(sk); 
/* 从 inet 通 用 套 接 字 得 到 UDP 套 接 字 */ 
struct udp sock *up = udp sk(sk); 
struct flowi4 f14 stack; 
struct flowi4 *f14; 
int ulen = len; 
struct ipcm cookie ipc; 
struct rtable *rt = NULL; 


int free = 0; 
int connected = 07 
_ be32 dagddr, faddr, saddr; 
_ bel16 dport; 
u8 tos; 
int err, is udplite = IS UDPLITE (sk); 
/* 是 否 有 数据 包 聚 合 : 或 者 UDB 套 接 字 设置 了 聚合 选项 ， 或 者 数据 包 消息 指明 了 还 有 更 多 数据 */ 
int corkreq = up->corkflag || msg->msg flags&MSG_ MORE; 
int (*getfrag) (void *, char *, int, int, int, struct sk buff *); 
struct sk buff *skb; 
struct ip options data opt_copy; 
/* 数据 包 长 度 检查 *7 
if (len > OxFFFF') 
return -EMSGSIZE; 
/* 检查 消息 标志 ，UDP 不 支持 带 外 数据 */ 
if (msg->msg flags & MSG OOB) /* Mirror BSD error message compatibility */ 

return -EOPNOTSUPP; 
ipc.opt = NULL; 
ipc.tx flags = 0; 
/* 设置 正确 的 分 片 函数 */ 
getfrag = is udplite ? udplite getfrag : ip generic getfrag; 
£14 = &inet->cork.fl.u.ip4; 
if (up->pending) { 

/* 该 UDP 套 接 字 还 有 待 发 的 数据 包 */ 

lock sock (sk); 

/* 和 壳 见 的 上 锁 双 重 检查 机 制 */ 

if (likely(up->pending)) { 

/* 落 待 发 的 数据 不 是 INET 数 据 ， 则 报错 返回 */ 
if (unlikely(up->pending != AF INET)) { 
release_ sock (sk); 
return -EINVAL; 


} 
/* 调 到 追加 数据 处 */ 
goto do append data; 
} 
release_ sock (sk); 
} 
ulen += sizeof (struct udphdr); 
if (msg->msg name) { 
/* 车 指定 了 目标 地 址 ， 则 对 其 进行 校 验 */ 
struct sockaddr in * usin = (struct sockaddr in *)msg->msg name; 
/* 检查 长 度 */ 
if (msg->msg namelen < sizeof (*usin)) 
return -EINVAL; 
/* 检查 协议 族 。 目 前 只 支持 AF INET 和 AF UNSPEC 协 议 族 */ 
if (usin->sin family != AF INET) { 
if (usin->sin family != AF _UNSPEC) 
return -EAFNOSUPPORT; — 


} 
/* 车 通过 了 检查 ， 则 设置 目的 地 址 与 目的 端口 */ 
daddr = usin->sin addr.s agddr; 
dport = usin->sin port; 
/* 目的 端口 不 能 为 0 */ 
if (dport == 0) 
return -EINVAL; 
} else { 
/* 如 果 没 有 指定 目的 地 址 和 目的 端口 ， 则 当前 套 接 字 的 状态 必须 是 已 连接 ， 即 已 经 调用 过 connect 设 置 了 目的 地 址 */ 
if (sk->sk state != TCP ESTABLISHED) 
return -EDESTADDRREQ; 
/* 使 用 之 前 设置 的 目的 地 址 和 目的 端口 */ 
dagdr = inet->inet daddr; 
dport = inet->inet dport; 
/* Open fast path for connected socket. 
Route will not be used, if at least one option is set. 
六 
connected = 1; 
} 
ipc.addr = inet->inet saddr; 
ipc.oif = sk->sk bound dev if; 
/* 设置 时 间 蕉 标志 */ 
err = sock tx timestamp (sk, &ipc.tx flags); 
if (err) 
return err; 
/* 发 送 的 消息 包含 控制 数据 */ 
if (msg->msg controllen) { 
/* 虽然 这 个 函数 的 名 字 叫 作 send， 其 实 并 没有 任何 发 送 动作 ， 而 只 是 将 控制 消息 设置 到 ipc 中 */ 
err = ip_cmsg send(sock net (sk), msg, &ipc); 
if (err) 
return err; 
/* 设置 释放 ipc.opt 的 标志 */ 
if (ipc.opt) 
free = 17 
connected = 0; 


$ 
if (lipc.opt) { 
/* 如 果 没 有 使 用 控制 消息 指定 TP 选项 ， 则 检查 套 接 字 的 TP 选项 设置 。 如 果 有 ， 则 使 用 套 接 字 的 TP 选项 */ 
struct ip options rcu *inet opt; 
rcu read lock(); 
inet opt = rcu dereference (inet->inet opt); 
if (inet opt) { 
memcpy (&opt_ copy, inet opt, 
sizeof (*inet opt) + inet opt->opt.optlen); 
ipc.opt = &opt_ copy.opt; 


rcu read unlock(); 
k 
sagddr = ipc.addr; 
ipc.addr = faddr = daddr; 
/* 设置 了 严格 路 由 */ 
if (ipc.opt && ipc.opt->opt.srr) { 
if (!dagdr) 
return -EINVAL; 
fagddr = ipc.opt->opt.faddr; 
connected = 0; 
} 
2 = RT_TOS (inet->tos); 
若 有 下 列 情况 之 一 的 : 
1) 套 接 字 设 置 了 本 地 路 由 标志 。 
2) 发 送 消息 时 ， 指 明了 不 做 路 由 。 
3) 设置 了 IP 严 格 路 由 选项 。 
则 设置 不 查找 路 由 标志 
四 


if (sock flag(sk, SOCK LOCALROUTE) || 
(msg->msg flags & MSG DONTROUTE) || 
(ipc.opt && ipc.opt->opt.is strictroute)) { 
tos |= RTO_ONLINK; 
connected = 0; 


/* 如 果 目 的 地 址 是 多 播 地 址 */ 
if (ipv4 is multicast (daddr)) 
/* 车 未 指定 出 口 接口 ， 则 使 用 套 接 字 的 多 播 接口 索引 */ 
if (!ipc.oif) 
ipc.oif = inet->mc index; 
/* 车 源 地 址 为 0， 则 使 用 套 接 字 的 多 播 地 址 */ 
if (!saddr) 
saddr = inet->mc addr; 
connected = 0; 


E 
/* 连接 标志 为 真 ， 即 此 次 发 送 的 数据 包 与 上 次 的 地 址 相同 ， 则 判断 保存 的 路 由 缓存 是 否 还 可 用 。*/ 
if (connected) { 

/* 从 套 接 字 检查 并 获得 保存 的 路 由 缓存 */ 

rt = (struct rtable *)sk dst check(sk, 0); 


} 
/* 若 目前 路 由 缓存 为 空 ， 则 需要 查找 路 由 */ 
if (rt = NULL) { 
struct net *net = sock net (sk); 
£14 = &f14 stack; 
/* 根据 套 接 字 和 数据 包 的 信息 ， 初 始 化 flowi4 一 这 是 查找 路 由 的 key */ 


flowi4 init output (f14, ipc.oif, sk->sk mark, tos, 
RT_SCOPE UNIVERSE, sk->sk Protocol， 
inet sk flowi ._ flags (sk) | FLOWI_FLAG CAN SLEEP 
faddr, saddr, dport, inet->inet .sport); 
Security sk classify flow(sk, flowi4 to flowi (£14)); 
/* 查找 出 口 路 由 */ 
rt = ip route output flow(net, f14, sk); 
if (IS ERR(rt)) { 
/* 查找 路 由 失败 */ 
err = PTR ERR(rt); 


—ENETUNREACH) 
IP_INC STATS BH (net, 
goto out; 


IPSTATS MIB OUTNOROUTES); 


} 
err = -EACCES; 
/* 车 路 由 是 广播 路 由 ， 并 且 套 接 字 非 广播 套 接 字 */ 
if ((rt->rt flags & RTCF BROADCAST) && 
!sock flag(sk, SOCK BROADCAST)) 
goto out; 
if (connected) { 
/* 若 该 UDP 为 已 连接 状态 ， 则 保存 这 个 路 由 缓存 */ 
Sk dst set(sk, dst_ clone(g&rt->dst)); 
} 


} 

/* 如 果 数 据 包 设置 了 MSG CONFIRM 标 
以 发 现 其 实现 方法 是 在 有 neibour 信 

if (msg->msg flagsg&MSG CONFIRM) 


， 则 是 要 告诉 链 路 层 ， 对 端 是 可 达 的 。 调 到 do_confrim 处 ， 可 
的 情况 下 ， 直 接 更 新 neibour 确 认 时 间 蕉 为 当前 时 间 。 */ 


goto do confirm; 


back from confirm: 


saddr = 


站 


/* 
if 


£14->saddr; 

(1ipc.addr) 

daddr = ipc.addr = f14->daddr; 

ob 或 MSG MORE 标志 。 这 也 是 最 常见 

(!corkreq) 

/* 大 个 UDP 数 据 包 */ 

Skb = ip make skbl(sk, f14, getfrag, msg->msg iov, ulen, 
sizeof (struct udphdr), &ipc, &rt, 
msg->msg flags); 

err = PTR ERR (skb); 

* 成 功 生成 了 数据 包 */ 

if (skb && !IS ERR(skb)) { 

/* 发 送 UDP 数 据 包 */ 

err = udp_send skb (skb, £14); 


入 情况。 */ 


} 
goto out; 


f 
lock_ sock (sk); 


if 


/* 
/* 
£1 
EL 
EL 
£1 
£1 


up->pending = 


(unlikely (up->pending)) { 
/* 


现在 马上 要 做 Cork 处 理 ， 但 发 现 套 接 字 已 经 cork 了 。 

交 个 用 有 本人 释放 套 接 字 锁 ， 并 返回 错误 。 

四 

release sock (sk); 

LIMIT NETDEBUG (KERN DEBUG "udp cork app bug 2\n"); 
err = -EINVAL; 

goto out; 


Now cork the socket to pend data. 
/ 
设置 cork 中 的 流 信息 */ 
4 = &inet->cork.fl.u.ip4; 
4->qaddr = daddr; 
4->saddr = saddr” 
4->f14 dport = dport; 
4->f14 sport = inet->inet sport; 
AF_INET; 


do_append data: 


out: 
/* 清理 工作 ， 释 放 各 种 资源 ， 并 增加 相应 的 统计 计数 */ 
ip rt put (rt); 
if (free) 
kfree (ipc.opt); 
if (!err) 
return len; 
/* 
* ENOBUFS = no kernel mem, SOCK NOSPACE = no sndbuf space. Reporting 
* ENOBUFS might not be good (it's not tunable per se), but otherwise 
* We don't have a good statistic (IpOutDiscards but it can be too many 
* things). We could add another new stat but at least for now that 
* seems like overkill. 
六 
1 
if (err 一 -ENOBUFS || test bit (SOCK NOSPACE, &sk->sk socket->flags)) 
UDP_INC_STATS USER (sock 1 net (sk), 
UDP 1 MIB _SNDBUFERRORS, is udplite); 
} 
return err?; 


/* 


增加 UDP 数 据 长 度 */ 


up->len += ulen; 


/* 


向 IP 数 据 包 中 追加 新 的 数据 */ 


err = ip append datal(lsk, f14, getfrag, msg->msg iov, ulen, 


if 
el 


el 


sizeof (struct udphdr), &ipc, &rt, 
Corkreq ? msg->msg flags|MSG MORE : 
(err) // 若 发 生 错误 ， 则 丢弃 所 有 未 决 的 数据 包 
udp flush pending frames (sk); 
se if (!corkreq) // 若 不 在 cork 即 阻塞 ， 则 发 送 所 有 未 决 的 数据 包 
err = udp push pending frames (sk); 
se if ne queue empty(&sk->sk write queue))) { 
/* 若 没有 未 决 的 数据 色 ， 则 重 置 未 决 标志 */ 
up->pending = 0; 


msg->msg_flags); 


release sock (sk); 


do_confirm: 
ds 


if 


er: 
go 


t confirm(&rt->dst); 
(! (msg->msg flagsg&MSG PROBE) 
goto back from confirm; 
r=0; 加 加 
to out; 


11 len) 


一 般 情况 下 ， 在 使 


UDP 发 送 数据 包 时 很 少 会 使 用 CORK 或 MSG_MORE 标 志 ， 因 


追踪 udp_send_skb 函 数 。 


因为 我 们 希望 在 每 次 调用 


发 送 接 


口 时 ， 就 发 送 一 次 UDP 数据 包 。 因 


此 可 以 不 必 考 虑 CORK 和 MSG_MORE 的 情况 ， 而 继续 


static int udp send skb (struct sk buff *skb, struct flowi4 *f14) 


{ 


二 
st 
st 
in 
in 
in 
in 


Skb->sk; 
inet sk(sk); 


ruct sock *sk = 
ruct inet sock *inet = 
ruct udphdr *uh; 

t err = 0; 

t is udplite = IS_UDPLITE (sk); 

t offset = skb ) transport ， offset (skb); 
t len = skb->len - offset; 

wsum csum = 0; 


7 创建 UDP 报 文 头 部 */ 


uh = 
Wh 


uh 
uh 
uh- 
/* 
wy 
if 


udp_hdr (skb); 

>source = inet->inet sport; 

->dest = £14->£14 dport; 

->len = htons (len); 

>check = 0; 

如 果 是 轻 量 级 UDP 协 议 ， 则 调用 相应 的 校 验 和 计算 函数 。 想 了 解 什么 是 UDP Lite， 


(is_udplite) 
csum = udplite csum(skb); 


请 自行 wiki。 


/* 禁止 了 UDP 校 验 和 */ 

else if (sk->sk no check == UDP CSUM NOXMIT) { 
skb->ip_summed = CHECKSUM NONE.; 
goto send; 

} else if (skb->ip summed 一 CHECKSUM PARTIAL) { 
/* 硬件 支持 校 验 和 的 计算 */ 
udp4 hwcsum(skb, f14->saddr, f14->dadqr); 
goto send; 

} slse { 
/* 一 般 情况 下 的 校 验 和 计算 */ 
csum = udp_csum(skb); 


} 
/* 计算 UDP 的 校 验 和 ， 需 要 考虑 伪 首 部 */ 
uh->check = csum tcpudp magic (f14- >saddr, £14->daddr, len, 
Sk->sk protocol, csum) 
/* 如 果 校 验 和 为 0， 则 需要 将 其 设置 为 0xFFFF。 因为 UDP 的 零 校 验 和 ， 有 特殊 的 含义 ， 表 示 没 有 校 验 和 。*/ 
if (uh->check 一 0) 
uh->check = CSUM MANGLED 0; 
send: 本 
/* 发 送 IP 数 据 包 */ 
err = ip_send skb (skb); 


if (err) { 
if (err == -ENOBUFS && !inet->recverr) { 
UDP_INC_STATS USER(sock net (sk), 
UDB 1 MIB _SNDBUFERRORS, is udplite); 
err = 0; 
} 
} else 


UDP_INC_STATS USER(sock net (sk), 
UDP_MIB OUTDATAGRAMS, is udplite); 
return err; 


至 此 ，UDP 已 经 完成 了 自己 的 工作 ， 后 面 的 发 送 工 作 将 交 由 IP 层 来 负责 。 


在 没有 阅读 内 核 源码 时 ， 我 相信 绝 大 多 数 的 读者 都 会 认为 在 使 用 UDP 套 接 字 时 ， 每 一 次 调用 send 都 会 产生 一 个 UDP 报 文 。 事 实 上 ， 在 一 般 的 项 目 中 ，UDP 套 接 字 确 实 也 是 这 样 使 用 的 。 然 而 通过 阅读 源 
码 ， 我 们 才 发 现 当 使 用 了 套 接 字 的 cork 选 项 或 者 是 MSG_MORE 标 志 时 ，UDP 套 接 字 也 可 以 多 次 send 调 用 ， 而 只 产生 一 个 UDP 报 文 。 这 也 是 我 们 学 习 内 核 源 码 的 一 个 目的 和 收获 。Linux 内 核发 展 变化 极为 
速 ， 任 何 一 本 Linux 方 面 的 书 都 不 可 能 涵盖 当前 内 核 的 所 有 细节 。 所 以 ， 无 论 你 从 事 的 是 内 核 开发 还 是 应 用 开发 坚持 阅读 内 核 源码 ， 将 对 你 的 工作 和 能 力 有 极 大 的 益处 。 


13.4 TCP 数 据 包 的 发 送 流 


13.3 节 追踪 了 UDP 数据 包 的 发 送 流程 ， 本 节 要 学 习 另 外 一 个 重要 的 传输 层 协议 ，TCP 数 据 包 的 发 送 流程 。 


TCP 的 sendmsg 操 作 函 数 为 tcp_sendmsg， 代 码 如 下 : 


int tcp sendmsg (struct kiocb *iocb, struct sock *sk, struct msghdr *msg, size t size) 
{ 
struct iovec *iov; 
struct tcp sock *tp = tcp sk(sk); 
struct sk buff *skb; 
int iovlen, flags; 
int mss_ now, size goal; 
int sg, err, copied; 
long timeo; 
lock sock (sk); 
flags = msg->msg flags; 
/* 根据 标志 ， 确 定 发 送 消息 的 超时 时 间 : 
如 果 设 置 了 MSG_DONTWAIT， 则 超时 时 间 为 0。 
ON 则 使 用 套 接 字 的 超时 时 间 。 
六 
timeo = sock sndtimeo(sk, flags & MSG DONTWAIT); 
/* 
套 接 字 只 有 处 于 已 连接 (ESTABLISHED) 和 等 待 关闭 (CLOSE WAIT) 的 状态 下 ， 才 能 直接 发 送 数 据 。 
已 连接 状态 不 用 多 说 。 等 待 关闭 状态 是 指 收 到 对 端 关闭 (FIN) 烧 据 包 ， 但 本 端 应 用 还 没有 关闭 连接 时 ， 这 
时 仍然 可 以 发 送 数 据 。 
eh 发 送 FIN， 表 示 本 端 不 会 再 发 送 数 据 。 
四 
if ((1 << sk->sk state) & ~ (TCPF ESTABLISHED | TCPF CLOSE WAIT)) 
/* 等 待 连接 建立 。 若 失败 则 返回 出 错 */ 
if ((err = sk stream wait connect (sk, &timeo)) != 0) 
goto out err; 
/* 清除 SOCK RSYNC NOSPACE 标 志 */ 
clear bit (SOCK ASYNC NOSPACE, &sk->sk socket->flags); 
/* 得 到 当前 的 MSS 长 度 和 数据 包 的 最 大 长 度 */ 
mss now = tcp send mss(sk, &size goal, flags); 
/* 准备 开始 发 送 ， 获 得 用 户 的 数据 向 量 地 址 及 长 度 */ 
iovlen = msg->msg_iovlen; 
iov = msg->msg iov; 
copied = 0; 
err = -EPIPR; 
/* 错误 检查 */if (sk->sk err || (sk->sk_shutdown & SEND SHUTDOWN)) 
goto out err; 
/* 判断 出 口 路 由 是 否 支持 分 散 聚 合 功 能 */ 
sg = Sk->sk _ route caps & NETIF F SG; 
/* 逐个 发 送 数 据 段 */ 
while (--iovlen >= 0) { 
/* 得 到 该 数据 段 的 长 度 及 起 始 地 址 */ 
size t seglen = iov->iov len; 
unsigned char _ user *from = iov->iov base; 
ioV++7 
/* 循环 以 保证 本 数据 段 的 数据 全 部 被 发 送 */ 
while (seglen > 0) { 
int copy = 0; 
/* 获得 数据 包 的 最 大 长 度 */ 
int max = size goal; 
/* 获得 发 送 队 列 尾 部 的 skb， 查 看 是 否 还 有 剩余 空间 */ 
Skb = tcp write queue tail (sk); 
if (tcP : send | head (sk)) { 
if (skb->ip summed 一 CHECKSUM NONE) 
max = mss_now; 
/* 得 到 本 次 需要 复制 的 长 度 */ 


Copy = max - skb->len; 


} 
下 Oy ee 需要 申请 新 的 Skb */ 
if (copy <= 0) { 
new_segment: 
”/* 检查 发 送 缓冲 是 否 已 经 超出 了 限制 */ 
if (!sk stream memory free(sk)) { 
/* 发 送 缓冲 正 用 内 存 过 多 ， 需 要 等 待 */ 


goto wait for sndbuf; 


} 

/* 申请 新 的 skb */ 

Skb = sk_ stream alloc skb (sk 
select sizel(sk, sg), 
sk->sk allocation); 

if (!skb) { 轴 

/* 车 分 配 失败 ， 则 需要 等 待 */ 


goto wait for memory; 


} 

/* 检查 硬件 是 否 支持 校 验 和 */ 

if (sk->sk route caps & NETIF F ALL CSUM) 
Skb- >ip : summed = CHECKSUM ] {PARTIAL; 


/* 加 入 套 接 字 的 发 送 队 列 */ 
Skb entail (sk, skb); 
Copy = size goal; 

max = size goal; 


} 
/* 复制 长 度 不 能 超过 数据 长 度 */ 
if (copy > seglen) 


} 


i 
/* 
十 


/* 


sy = seglen; 
汶 晰 56 的 线性 空 间 是 否 还 有 空闲 */ 
人 (skb availroom(skb) > 0) { 
/* 调整 夏 制 长 度 ， 不 能 超过 空闲 的 空间 长 度 */ 
copy = min t(int, copy, skb availroom(skb) ) 7 
/* 将 数据 复制 到 sjkb 的 空闲 空间 中 */ 
err = skb add data nocache (sk, skb, from, copy); 
if (err) 
goto do fault; 
else { 
/* 如 果 该 skb 没 有 足够 的 空闲 的 线性 空间 ， 则 把 数据 复制 到 分 散 聚合 页 中 */ 
int merge = 0; 
让 获得 数据 的 分 片 个 数 
int i = skb shinfo(skb)->nr frags; 
/* 获得 套 接 字 使 用 的 页 */ 
struct page *page = TCP PAGE (sk); 
/* 获得 该 页 已 使 用 的 偏 移 */ 
int off = TCP OFF (sk); 
/* 判断 数据 包 是 否 可 以 和 最 后 一 个 分 片 聚合 */ 
if (skb can coalesce(skb, i, page, off) && 
off != PAGE SIZE) { 
/* 若 可 以 聚合 ， 则 设置 merge 标 志 */ 
merge = 1; 
} else if (i == MAX SKB FRAGS || !sg) { 
/* 已经 达到 分 片上 限 ， 或 者 网 络 设备 不 支持 分 散 聚 合 。 这 时 不 能 再 向 分 片 增加 任 
7 何 数据 了 。 */ 
太 


了 给 新 数据 腾 出 空间 ， 需 要 将 老 数 据 尽快 发 送出 去 。 


因此 设置 PUSH 标志 ， 并 更 新 Pushed_seq。 然 后 跳 转 到 new_segment， 并 申请 新 的 


Skb。 

守 

tcp mark push (tp, skb); 

goto new segment; 

} else if (page) { 

/* 该 页 已 满 */ 

if (off 一 PAGE SIZE) { 
Put_page (page); 
TCP_PAGE (sk) = page = NULL; 
off = 0; 


} else 
off = 0; 
/* 再 次 检查 复制 长 度 ， 不 能 超过 该 页 的 空闲 长 度 */ 
if (copy > PAGE SIZE - off) 
Copy = PAGE SIZE - off; 
/* 增加 发 送 缓存 内 存 占 用 ， 若 超出 限制 ， 则 需要 等 待 */ 
if (!sk wmem schedule(sk, copy)) 
goto wait for memory; 
/* 落 没有 可 用 的 页 ， 则 申请 新 的 页 */ 
if (!page) { 
/* Allocate new cache page. */ 
if (!(page = sk stream alloc page (sk))) 
goto wait for memory; 


} 
/* 将 数据 复制 到 页 的 相应 位 置 */ 
err = skb copy_ to page nocache (sk, from, skb, 
Page, off, copy); 
if (err) { 
x 


即使 复制 失败 ， 如 果 该 页 是 新 申请 的 ， 也 应 该 让 套 接 字 拥 有 该 页 ， 以 供 未 来 使 用 。 
RF 


if (!TCP PAGE (sk)) { 
TCP_PAGE (sk) = page; 
TCP_OFF (sk) = 0; 


goto do error; 


} 
/* Update the skb. */ 
if (merge) { 

大 


区 
人 合并 ， 则 更 新 最 后 一 个 分 片 的 长 度 


Skb frag size add(&skb shinfo (skb)->frags[i - 1], copy); 
} else { 

/* 这 是 新 的 分 片 ， 需 要 为 这 个 分 片 初始 化 一 些 页 信息 */ 

Skb fill Page ‘desc (skb, i, page, off, copy); 

if (TCP PAGE (sk)) { 
/* 该 分 页 是 之 前 分 配 的 ， 因 此 增加 引用 即 可 */ 
get_ Page (page); 

} else if (off + copy < PAGE SIZE) { 
/* 车 该 分 页 是 新 分 配 的 ， 但 还 未 用 完 ， 则 增加 引用 ， 并 将 其 设置 为 套 接 字 的 

发 送 页 ， 以 便 未 来 使 用 */ 

get_ page (page); 
TCP_PAGE (sk) = page; 

} 


} 
/* 更 新 套 接 字 的 发 送 偏 移 量 */ 
TCP_OFF (sk) = off + copy; 


若 无 须 复制 任何 数据 ， 则 清除 PUSH 标志 */ 

(!copied) 

TCP SKB CB (skb)->tcp flags &= ~TCPHDR_ PSH; 
更 新 各 种 序列 号 */ 


tp->write seq += copy; 
TCP_SKB_CB (skb) ->end seq += copy; 
skb shinfo (skb) ->gso segs = 0; 


/* 


更 新 复制 信息 */ 


from += copy; 
Pb += Cop; 


/* 异 
于 下 


/* 
if 


/* 
了 


j 岂 是 否 完成 了 所 有 的 吉 据 持 由 we 
((seglen -= copy) 一 0 && iovlen 一 0) 
goto out; 
如 果 数据 包 的 长 度 小 于 限制 ， 或 者 设置 了 MSG_OOB 标 志 ， 则 继续 向 该 数据 包 增 加 数据 */ 
(skb->len < max | | (flags & MSG ;O00B) ) 
continue; 


如 果 当 前 序列 号 超过 上 次 push 的 序列 号 加 上 通告 窗口 的 一 半 ， 则 需要 将 本 次 数据 包 尽快 发 


送出 去 */ 
(forced push(tp)) { 
/* 将 本 数据 包 设置 上 PUSH 标 志 ， 并 更 新 push 序 列 号 */ 
tcp mark Push (tp, skb); 
/* 将 所 有 未 决 的 数据 包 全 都 发 送出 去 */ 
_tcp push pending frames (Sk，mss Eo TCP_NAGLE PUSH); 


} else if (skb == tcp send head (sk)) 


/* 如 果 套 接 字 上 只 有 当前 这 个 数据 包 ， 加 发 过 这 一 个 部 据 包 */ 


tcp push one(sk, mss_now); 


continue; 


/* 等 待 发 送 缓存 


wait for sndbuf: 


/* 设置 没有 发 送 缓存 的 标志 */ 


set 
/* 等 待 内 存 */ 


wait for memory 


. bit (SOCK NOSPACE, &sk->sk socket->flags); 


$e 草 断 是 否 已 经 复制 了 部 分 数据 */ 


半生 


(copied) { 
/* 去 掉 MSG_ MORE 标志 ， 表 示 尽 快 将 复制 的 数据 发 送出 去 */ 
tcp push(sk, flags & ~MSG MORE, mss now, TCP NAGLE PUSH) 7 


} 
/* 等 待 空 关内 存 ， 可 能 进入 睡眠 状态 */ 


让 


((err = sk stream wait memory (Sk，&timeo)) != 0) 
goto do error; 


/* 有 了 空闲 内 存 ， 但 MSS 可 能 已 经 发 生 了 变化 ， 所 以 需要 重新 获取 MSS */ 


mss now = tcp_send mss(sk, &size goal, flags); 
} 


} 
/* out 是 正常 退出 路 径 */ 
out: 
/* 如 果 成 功 复制 了 数据 ， 则 调用 tcp_push 将 数据 包 发 送出 去 ,但 不 保证 立刻 就 发 送 */ 
if (copied) 
tcp push(sk, flags, mss now, tp->nonagle); 
/* 释放 去 接 字 ， 返 回 发 送 的 字 节 数 */ 
release sock (sk); 
return copied; 
/* 复制 用 户 数据 错误 */ 
do fault: 
/* 如 果 当 前 sjkb 的 数据 长 度 为 0， 则 需要 从 套 接 字 的 发 送 队列 中 将 其 删除 ， 并 释放 该 skb */ 
if (!skb->len) { 
tcp unlink write queue (skb, sk); 
/* It is the one place in all of TCP, except connection 
* reset, where we can be unlinking the send head. 
六 
# 
tcp_check send head (sk, skb); 
Sk wmem free skbl(sk, skb); 
do_error: 
/* 车 出 错时 已 经 复制 了 部 分 数据 ， 则 将 已 经 复制 的 数据 发 送出 去 */ 
if (copied) 
goto out; 
out _ err: 
/* 车 没有 复制 任何 数据 ， 则 获取 错误 值 ， 释 放 套 接 宁 并 返回 错误 */ 
err = sk_ stream error(sk, flags, err); 
release sock (sk); 
return err; 


因为 TCP 是 一 种 流 协议 ， 所 以 使 用 tcp_sendmsg 发 送 数据 时 ， 内 核 只 是 将 数据 包 追 加 到 套 接 字 的 发 送 队 列 中 。 真 正 发 送 数据 的 时 刻 ， 则 是 由 TCP 协 议 来 控制 的 ， 套 接 字 只 能 做 出 指示 。tcp_sendmsg 函 
数 是 通过 调用 _tcp_push_pending frames 来 指示 TCP 协 议 发 送 数据 的 。 所 以 ， 有 必要 来 看 一 下 _tcp_push_pending frames， 代 码 如 下 : 


void _ tcp push pending frames (struct sock *sk, unsigned int cur mss, 
int nonagle) 


/* 如 果 套 接 字 是 关闭 状态 ， 则 直接 返回 */ 
if (unlikely (sk->sk state 一 TCP_CLOSE) ) 
return; 
/* tcp_write xmit 用 于 将 TCP 报 文 发 送 到 网 络 上 */ 
if (tcp write ;> xmit (sk, cur mss, nonagle, GFP ATOMIC)) { 
/* 如 果 没 有 要 发 送 的 数据 ， 则 得 轩 县 寄 探测 定时 器 */ 
tcp_check probe timer (sk); 


下 面 进入 tcp_write_xmit， 代 码 如 下 : 


static int tcp write xmit(struct sock *sk, unsigned int mss now, int nonagle, 
int push one, gfp t gfp) 
{ 
struct tcp sock *tp = tcp sk(sk); 
struct sk buff *skb; 
unsigned int tso segs, sent pkts; 
int cwnd quota; 
int result; 
sent pkts = 0; 
/* 如 果 不 是 push_one ( 即 只 发 送 一 个 数据 包 ) ， 则 进行 MIU 探测 */ 
if (!push one) { 
/* 进行 MTU 探 测 */ 
result = top mio probe (ek)? 
/* 车 返回 为 0， 则 需要 等 待 探测 结果 ， 因 此 不 能 发 送 数 据 包 。*/ 
if (!result) { 
return 0; 
} else if (result > 0) { 
sent pkts = 1; 
} 


* 将 发 送 队列 中 的 数据 包 ， 循 环 发 送出 去 */ 
while ((skb = tcp send head(sk))) { 
unsigned int limit; 
/* 初始 化 这 个 数据 包 的 TSO 状 态 。TSO 是 TCP Segment Offload 的 当 TCP 发 送 数 据 时 ， 需 
要 将 数据 拆 分 成 MSS 大 小 的 数据 包 ( 即 多 个 skb) ， 然 后 再 增加 TCP 、IP 首 部 即 可 、 2 
验 和 等 。 而 当 网 卡 支持 TSO 时 ， 内 核 只 需要 增加 TCP 首 部 即 可 ， 其 余 工 作 都 交 由 网 卡 来 处 理 。 
tso_segs = tcp init tso segs(sk, skb, mss_now); 
BUG ON (!tso segs); 
答 查 拥塞 窗口 。 若 为 0， 则 不 能 发 送 */ 
cwnd quota = tcp_cwnd test (tp, skb); 
if (Tcwnd quota) 
break; 
/* 检查 发 送 窗 口 。 若 为 0， 则 不 能 发 送 */ 
if (unlikely(!tcp snd wnd _ test (tp, skb, mss_now))) 
break; 
if (tso segs 一 1) { 


i 进行 hRagle 算 法 检查 。 若 返回 0， 则 不 发 送 
# 


if (unlikely(!tcp nagle test (tp, skb, mss now, 
(tcp skb is last(sk, skb) ? 
nonagle : TCP NAGLE PUSH)))) 
break; 
} else { 
/* 多 个 TSO 数 据 段 */ 
/* 如 果 没 有 设置 push_one 标 志 并 且 TSO 发 送 算法 判断 推迟 发 送 ， 则 暂 不 发 送 这 个 数据 包 */ 
if (!push one && tcp tso should defer (sk, skb)) 
breaky 
} 
limit = mss_now; 
/* 当 TSO 分 段 多 人 则 利用 MSS 和 可 分 段 的 个 数 (拥塞 窗口 和 GSO 最 大 分 段 数 
量 之 间 的 最 小 值 ) 得 到 数据 的 最 长 限制 * 
if (tso segs > 1 && !tcp urg Ey 
limit = tcp mss split point (sk, Skb, mss_now, 
min t (unsigned int, 
cwnd_quota, 
Sk->sk gso max segs)); 
/* 
若 数据 长 度 大 于 限制 ， 则 需要 分 片 。 
Ee 失败 ， 则 暂 不 发 送 这 个 数据 包 。 
if (skb->len > limit && 
unlikely (tso fragment (sk, skb, limit, mss_now, gfp))) 
break; 
/* 更 新 TCP 控 制 块 的 时 间 稚 */ 
TCP_SKB CB (skb) ->when = tcp time stamp; 
/* 发 送 数据 包 */ 
if (unlikely(tcp transmit skbl(sk, skb, 1, gfp))) 
break; 
/* 处 理发 送 新 数据 事件 ， 如 调整 发 送 队列 ， 则 重 置 重 传 定时 器 等 */ 
tcp event new data sent (sk, skb); 
/* 更 新 小 包 ( 即 小 于 MSS 大 小 ) 的 发 送 时 间 */ 
tcp minshall update (tp, mss_now, skb); 
/* 更 新 发 送 数 据 包 的 数量 */ 
sent_ pkts += tcp. SKD Poount (SK) 
/* 如 果 设 置 了 push_one 标 志 ， 则 只 发 送 一 个 数据 包 。 因 此 可 直接 退出 */ 
if (push one) 
break; 


} 
/* 如 果 当 前 处 于 拥塞 恢复 的 状态 下 ， 则 增加 这 个 状态 下 的 发 包 数量 */ 


if (inet csk(sk)->icsk ca state 一 TCP_ CA Recovery) 
tp->prr out += sent pkts; 

/* 如 果 发 送 了 数据 ， 则 校 验 发 送 拥塞 窗口 */ 

if (likely(sent pkts)) { 
tcp_cwnd validate (sk); 
return 0; 

i 

return !tp->packets out && tcp send head (sk); 


继续 往 下 跟踪 TCP 的 发 送 函数 tcp_transmit_skb， 代 码 如 下 : 


static int tcp transmit skbl(struct sock *sk, struct sk buff *skb, int clone it， 
gfp t gfp mask) 
{ 
Const struct inet connection sock *icsk = inet csk(sk); 
struct inet sock *inet; 
struct tcp sock *tp; 
struct tcp skb cb *tcb; 
struct tcp out options opts; 
unsigned tcp options size, tcp header size; 
struct tcp md5sig key *md5; 
struct tcphdr *th; 
int err; 
I ON(!skb || !tcp_skb pcount (skb)); 
+ 昼 断 锌 控制 年 法 是 委 需 要 进行 时 间 末 样 。 如 果 需 要 ， 则 获取 当前 时 间 */ 
人 (icsk->icsk ca ops->flags & TCP_CONG RTT STAMP) 
_ net timestamp (skb); 
* 判断 是 否 需要 克隆 这 个 数据 包 */ 
if (likely(clone it)) { 


如 果 该 数据 包 已 经 被 克隆 了 ， 则 需要 复制 SKB 的 私有 部 分 
如 未 克隆 ， 则 直接 克隆 该 数据 包 
罗 


if (unlikely(skb cloned (skb))) 
= pskb_copy (skb, gfp mask); 
else 
Skb = skb clone (skb, gfp mask); 
if (unlikely(! Tskb) ) 
return -ENOBUFS; 
} 
Be = inet sk(sk); 
= tcp sk(sk); 
BB TCB_SKB CB (skb); 
memset (&opts, 0, sizeof (opts)); 
/* 根据 TCP 包 的 类 型 计算 TCP 选 项 部 分 的 大 小 */ 
if (unlikely(tcb->tcp flags & TCPHDR SYN)) 
tcp_options size = tcp syn options(sk, skb, &opts, gmd5); 
else 
tcp_options size = tcp established options(sk, skb, &opts, 
&md5); 
/* 得 到 完整 的 TCP 首 部 大 小 凡 放 
Yep header size = tcp options size + sizeof (struct tcphdr); 
昼 断 是 否 看 未 确认 的 数据 包 */ 
全 (tcp packets in flight (tp) 一 0) { 
/* 通知 开始 发 送 事 件 */ 
tecp ca event (sk, CA EVENT TX START); 
/* 若 设置 了 O00_Okay 书 则 表明 可 以 改变 发 送 队列 。 参 见 内 核 的 XPS 发 送 机 制 */ 
Skb->000 okay = 1; 
} t 


车 清除 000_okay 标 志 ， 则 表示 不 能 改变 发 送 队 列 。 参 见 内 核 的 XPS 发 送 机 制 */ 
全 >ooo okay = 0; 


} 
/* 在 skb 中 为 TCP 首 部 申请 空间 */ 
Skb push(skb, tcp header size); 
/* 设置 TCP 首 部 的 起 始 位 置 * 王 
Skb reset transport header (skb); 
/* 将 数据 包 加 入 到 发 送 队 列 中 */ 
Skb set owner w (skb, SK} 
/* 移 建 TCP 首 部 ， 并 计算 校 验 和 */ 

= tcp_hdr (skb); 


th->source inet->inet_ sport; 


th->dest = inet->inet dport; 

th->seq = htonl (tcb->seq); 

th->ack_seq = htonl (tp->rcv_nxt); 

*((t belé *)th) + 6) = htons(((tcp header size >> 2) << 12) | 


tcb->tcp flags); 
if (unlikely (tcb->tcp - flags & TCPHDR SYN)) { 
/* RFC1323: The window in SYN & SYN/ACK segments 
* is never scaled. 


本 
th->window = htons (min (tp->rcv_wnd, 65535U)); 
} else { 
th->window = htons (tcp_select window (sk)); 
} 
th->check = 0; 
th->urg ptr = 0; 


/* The urg mode check is necessary during a below snd una win probe */ 
if (unlikely(tcp urg mode (tp) && before (tcb->seq, tp->snd up))) { 
if (before (tp->snd up, tcb->seq + 0x10000)) { 
th->urg ptr = htons (tp->snd up - tcb->seq); 
th->urg = 1; 
} else if (after(tcb->seq + OxFFFF, tp->snd nxt)) { 
th->urg ptr = htons (OxFFFF); 
th->urg = 1; 
} 


} 

/* 构建 TCP 选 项 */ 

tcp options write((_ be32 *) (th + 1), tp, &opts); 

/* 如 果 不 是 SYN 数 据 包 ， 则 尝试 设置 FCN 状态 */ 

if (likely( (tcb->tcp flags & TCPHDR SYN) 一 0)) 
TCP_ECN_send (sk, skb, tcp ] header size); 

#ifdef CONFIG TCP MD5SIG 

/* 计算 TCP MD5 签名 */ 

if (md5) { 
Sk nocaps add (sk, NETIF F _ GSO MASK); 
tp->af specific->calc md5 hash (opts . hash_ location, 

md5, sk, NULL, skb); 


} 
#endif 
/* 计算 TCP 的 校 验 和 */ 
icsk->icsk af ops->send check (sk, skb); 
/* 如 果 有 ACK 标 志 ， 则 发 送 ACK 事 件 通知 */ 
if (likely(tcb->tcp flags & TCPHDR ACK)) 
tcp event ack sent (sk, tap skb pcount (skb)); 
/* 如 果 权 据 包 长 度 大 于 TCE 首 部 ， 那 公 自 然 是 有 TCP 数 据 的 ， 所 以 数据 将 发 送 事件 通知 */ 
if (skb->len != tcp header size) 
tcp event data sent (tp, sk); 
/* 增加 TCP 发 送 数据 包 的 统计 计数 */ 
if (after (tcb->end seq, tp->snd nxt) || tcb->seq 一 tcb->end seq) 
TCP_ADD ) STRATS (sock | net (sk), TCP MIB OUTSEGS, 
“tcp_skb pcount (skb)); 
/* 调用 ip_queue xmit 发 送 教 据 报 文 */ 
err = icsk->icsk af ops->queue xmit (skb, &inet->cork.f1); 
if (likely(err <= 0)) 
return err; 
* 判断 是 否 需要 进入 拥塞 窗口 来 恢复 状态 */ 
tcp enter cwr(sk, 1); 
/* 因为 NET XMIT_CN 返回 值 ， 不 能 被 看 作 发 送 错 误 。 所 以 对 于 发 送 返 回 的 错误 ， 需 要 调用 net xmit eval 来 屏蔽 该 错误 */ 


return net xmit eval (err); 


至 此 ，TCP 也 完成 了 自己 的 工作 ，IP 层 将 负责 后 面 的 数据 包 发 送 工 作 。 


13.5 1P 数 据 包 的 发 送 流程 


前 面 两 节 分 别 分 析 学 习 了 UDP 和 TCP 的 发 送 流程 。 它 们 在 完成 各 自 的 工作 ， 并 构建 对 应 的 首部 以 后 ， 就 将 数据 包 传递 给 了 IP 网 络 层 。 一般 情况 下 ，UDP 和 TCP 使 用 不 同 的 网 络 层 接口 函数 来 将 数据 包 传 
递 给 网 络 层 。 下 文 将 分 别 对 UDP 和 TCP 进 行 详细 介绍 。 


13.6 ”底层 模块 数据 包 的 发 送 流程 


13.5 节 分 析 了 IP 网 络 层 的 数据 包 的 发 送 流程 ， 并 最 终 跟踪 到 其 调用 邻居 模块 的 发 送 接口 。 为 什么 内 核 会 有 一 个 邻居 模块 呢 ? 本 质 上 数据 包 的 发 送 和 接收 都 依赖 于 数据 链 路 层 (二 层 ) 的 地 址 即 硬件 地 
址 ， 网 卡 只 接受 二 层 目的 地 址 为 自己 地 址 的 数据 包 (或 者 多 播 、 广 播 地 址 ) 。 所 谓 的 IP 地 址 (三 层 ) 只 是 一 个 逻辑 地 址 ， 其 实际 用 途 是 用 来 寻 径 的 。 那 么 内 核 在 发 送 数据 包 的 时 候 ， 就 需要 填充 正确 的 二 层 
硬件 地 址 才能 将 数据 包 成 功 地 发 送出 去 。 这 里 就 有 了 一 个 需求 ， 即 需要 将 三 层 网 络 地 址 “映射 ”为 正确 的 二 层 硬件 地 址 。 对 于 IPv4 来 说 ， 这 是 由 ARP 协 议 来 实现 的 ， 而 对 于 IPv6 来 说 ， 其 邻居 发 现 协 议 是 由 
ICMPv6 来 实现 的 。 因 此 ， 对 于 内 核 来 说 ， 一 方面 是 为 了 屏 菩 不 同 的 邻居 协议 的 实现 细节 ; 另 一 方面 ， 使 用 同一 个 邻居 模块 ， 对 外 可 以 保证 相同 的 邻居 状态 机 和 一 致 的 接口 。 


13.5 节 中 ， 二 层 当 的 发 送 接口 为 neigh_output， 其 源码 如 下 : 


static inline int neigh output (struct neighbour *n, struct sk buff *skb) 
struct hh cache *hh = gn->hh; 
We 


若 邻居 状态 为 连接 状态 : 永久 邻居 ， 不 需要 RRP， 可 到 达 三 种 情况 ， 
并 且 存在 硬件 地 址 ， 则 直接 调用 neigh_ hh_ output 来 发 送 。 
ya 则 通过 邻居 的 输出 函数 发 送 一 会 根据 邻居 状态 使 用 不 同 的 接口 。 


if ((n->nud state & NUD CONNECTED) && hh->hh len) 
return neigh hh output (hh, skb); 加 
else 本 
return n->output (n, skb); 


先 跟踪 第 一 种 情况 ， 来 查看 neigh_hh_output 的 代码 : 


static inline int neigh hh output (struct hh cache *hh, struct sk buff *skb) 
{ 
unsigned seq; 
int hh len; 
Es 
使 用 seqlock 读 取 硬 件 地 址 。 
Seqlock 一 般 用 在 频繁 读 操 作 ， 偶 尔 写 操作 的 情况 下 。 读 操作 并 不 会 真正 地 上 锁 ， 因 此 不 会 阻塞 其 他 读 操 
Hi ， 并 通过 序号 来 保证 读 出 数据 的 完整 性 ; 写 操作 会 使 用 spinlock 来 保证 同一 时 间 只 有 一 个 写 
作 。 


a 
dof{ 

int hh alen; 

seq = read seqbegin (ghh->hh lock); 

hh len = hh->hh len; 

hh alen = HH DATA ALIGN (hh len); 

memcpy (skb->data -= hh alen, hh->hh data, hh alen); 
} while (read seqretry(&hh->hh lock, seq)); 
/* 保存 硬件 地 址 */ 
skb Push (skb, hh len); 
/* 调用 底层 发 送 数 据 包 接口 */ 


return dev queue xmit (skb); 


下 面 再 来 分 析 邻 居 在 不 同 状态 下 的 发 送 接口 ， 在 此 ， 以 IPv4 的 ARP 协 议 为 例 来 进行 分 析 。 


首先 我 们 来 看 看 NUD_NOARP 状 态 ， 代 码 如 下 : 


neigh->nud_ state = NUD NOARP; 
neigh->ops = &arp direct ops; 
neigh->output = neigh direct output; 


在 NUD_NOARP 状 态 下 ，neigh 的 发 送 接口 为 neigh_direct_output， 代 码 如 下 。 


int neigh direct output (struct neighbour *neigh, struct sk buff *skb) 
{ 


return dev queue xmit (skb); 


} 


这 个 函数 “ 码 如 其 名 ”， 就 是 直接 调用 底层 的 发 送 接口 。 


再 来 看 看 NUD_VALID 状 态 和 其 余 状态 ， 代 码 如 下 : 


if (dev->header ops->cache) 
neigh->ops = &arp hh ops; 
else > 
neigh->ops = &arp generic ops; 
if (neigh->nud state & NUD VALID) 
neigh->output = neigh->ops->connected output; 
else 
neigh->output = neigh->ops->output; 


若 网 卡 提供 了 首部 缓存 的 功能 ， 则 邻居 的 操作 函数 为 arp_hh_ops， 不 然则 为 arp_generic_ops。 对 于 arp_generic_ops 来 说 ， 若 邻居 状态 为 NUD_VALID， 则 输出 函数 为 neigh_connected_output (与 
NUD_NOARP 状 态 相 同 ) ， 其 余 状 态 则 为 neigh_resolve_output， 代 码 如 下 : 


int neigh resolve output (struct neighbour *neigh, struct sk buff *skb) 


struct dst entry *dst = skb dst (skb); 

int rc = 07 本 

if (!dst) 
goto discard; 

/* 根据 具体 的 邻居 发 现 协议 ， 发 送 探测 邻居 数据 包 。 对 于 IPv4 来 说 ， 就 是 ARRP 请 求 。 如 果 成 功 得 到 邻 
居 的 地 址 ， 则 返回 成 功 〈 数 值 0) ， 不 然则 返回 错误 值 */ 

if (!neigh event send(neigh, skb)) { 
/* 有 了 邻居 即 对 端 硬件 地 址 ， 就 可 以 发 送 数据 包 了 */ 


int err; 
struct net device *dev = neigh->dev; 
unsigned int seq; 
/* 如 果 网 卡 有 地 址 缓存 功能 ， 并 且 邻 居 模块 没有 对 应 的 硬件 地 址 ， 则 调用 网 卡 功能 ， 填 充 二 层 硬件 地 址 */ 
if (dev->header ops->cache Ineigh->hh.hh len) 
neigh hh init (neigh, dst 
/* 下 面 的 代码 与 neigh_hh i 利用 seqlock 在 无 锁 的 条 件 下 ， 保 证 二 层 地 址 读 取 的 完整 性 。 */ 


_ Skb pull (skb, skb network offset (skb)); 
seq = read | seqbegin (&neigh- >ha lock); 
arr = en ] hard | header (skb, devr ntohs (skb->protocol), 
neigh->ha, NULL, skb-: em) 
} while (read seqretry (gneigh->ha lock, seq 
/* 落成 功 读 取 了 硬件 地 址 ， 则 调用 底层 发 遂 函 数 ， 和 # 
if (err >= 0) 
rc = dev queue xmit (skb); 
else 
goto out kfree skb; 
} 
out: 
return IC7 
discard: 
NEIGH PRINTK] ("neigh resolve output: dst=%p neigh=%p\n", 
dst, neigh); 
out kfree skb: 
rc = -EINVAL; 
kfree_ skb (skb); 
goto out; 
} 


邻居 模块 除了 相应 的 发 送 过 程 外 ， 更 为 重要 的 是 邻居 模块 状态 变迁 的 状态 机 ， 以 及 邻居 发 现 协议 的 实现 。 但 是 这 两 部 分 与 本 章 的 主题 关联 并 不 大 ， 代 码 也 不 复杂 ， 熟 悉 相关 协议 的 读者 可 以 很 容易 看 懂 
该 部 分 代码 。 


邻居 模块 调用 的 底层 发 送 接口 为 dev_queue_xmit， 实 质 上 数据 包 会 首先 进入 内 核 的 TC 模块 的 队列 (默认 情况 下 ， 网 卡 使 用 的 TC 队列 为 PFIFO_FAST 队 列 ) ， 然 后 根据 队列 算法 ， 让 合适 的 数据 包 出 队 
(之 所 以 说 合适 的 ， 是 因为 不 同 的 TC 队列 ， 其 出 队 的 算法 不 同 ) ， 并 调用 网 卡 的 发 送 函 数 ， 将 数据 包 发 送 到 网 卡 。 如 果 这 时 网 卡 满足 发 送 条 件 ， 则 数据 包 将 会 被 真正 地 发 送出 去 。 若 不 满足 发 送 条 件 ， 则 将 
利用 发 送 软 中 断 ， 过 段 时 间 再 进行 下 一 轮 尝试 。 


第 14 章 ”网 络 通信 : 数据 报 文 的 接收 


第 13 章 完成 了 对 数据 包 发 送 流程 的 分 析 和 学 习 ， 本 章 则 要 学 习 数 据 包 的 接收 过 程 ， 同 样 也 从 应 用 层 开始 入 手 ， 然 后 深入 到 内 核 的 实现 代码 ， 从 而 真正 理解 接收 数据 的 接口 。 本 章 也 是 网 络 通信 的 最 后 一 


音 
日。 


14.1 系统 调用 接口 


与 发 送 类 似 ， 内 核 也 提供 了 多 个 接收 数据 的 系统 调用 接口 ， 接 口 定义 如 下 : 


#include <sys/types.h> 

#include <sys/socket.h> 

ssize t recv(int sockfd, void *buf, size t len, int flags); 

Ssize | 七 recvfrom(int sockfd, void *buf, size t len, int flags, 
struct sockaddr *src ; addr, socklen 七 *addrlen); 

ssize t recvmsg (int sockfd, struct msghdr *msg, int flags); 


与 send 类 似 ，recv 一 般 也 是 面向 连接 的 套 接 字 。 原 因 在 于 ， 对 于 非 面向 连接 的 套 接 字 来 说 ， 若 使 用 recv 接 收 数据 ， 通 过 该 接口 将 不 能 获得 发 送 端的 地 址 ， 也 就 是 说 不 知道 这 个 数据 是 谁 发 过 来 的 。 所 
以 ， 如 果 使 用 者 不 关心 发 送 端 信息 ， 或 者 该 信息 可 以 从 数据 中 获得 ， 那 么 recv 接 口 同 样 也 可 以 用 于 非 面向 连接 的 套 接 字 。 再 来 看 看 recvfrom ， 它 会 通过 额外 的 参数 src_ addr 和 addrlen， 来 获得 发 送 方 的 地 
址 ， 其 中 需要 注意 的 是 addrlen， 它 既是 输入 值 又 是 输出 值 。 最 后 是 recvmsg， 它 与 sendmsg 一 样 ， 把 接收 到 的 数据 和 地 址 都 保存 在 了 msg 中 。 其 中 msg.msg_name 和 msg.msg _len 用 于 保存 接收 端 地 址 ， 
而 msg.msg_iov 用 于 保存 接收 到 的 数据 。 这 三 个 系统 调用 与 对 应 的 发 送 接口 一 样 ， 都 支持 设置 标志 位 flags 一 一 都 是 比较 现代 的 接口 设计 方法 。 


14.2 ”数据 包 从 内 核 空间 到 用 户 空 间 的 流程 


第 13 章 中 ， 几 个 不 同 的 发 送 数据 包 的 系统 调用 ， 最 终 都 是 通过 公共 的 函数 sock_sendmsg 来 完成 的 。 那 么 对 于 接收 数据 包 的 系统 调用 ， 我 们 相信 它们 也 是 殊途同归 ， 最 后 会 进入 到 一 个 公共 的 函数 中 。 
接 下 来 ， 跟 踪 14.1 节 介绍 的 三 个 系统 调用 的 实现 ， 来 证 明 我 们 的 猜想 。 


首先 是 recv 的 源码 : 


asmlinkage long SYSs_recvV(int fd, void _user *ubuf, size t size, 
unsigned flags) 
{ 
return sys_recvfrom(fd, ubuf, size, flags, NULL, NULL); 
} 


代码 很 简单 ，recv 完 全 是 通过 调用 sys_recvfrom 来 实现 的 ， 仅 仅 是 将 sys_recvfrom 的 最 后 两 个 参数 设置 为 0 而 已 。 


那么 接 下 来 就 进入 recvfrom 的 源码 : 


SYSCALL DEFINE6 (recvfrom, int, fd, void _ user *, ubuf, size t, size, 
“unsigned, flags, struct sockaddr _ user *, addr, 2 
int _ user *, addr len) 

{ 

struct socket *sock; 

struct iovec iov; 

struct msghdr msg; 

struct sockaddr storage address; 

int err, err2; 

int fput needed; 

/* 限制 读 取 字 节 长 度 的 最 大 值 为 整 教 的 最 大 值 INT_MAX */ 
if (size > INT MAX) 


size = INT MAX; 
/* 从 文件 描述 符 得 到 套 接 字 结构 */ 
sock = sockfd lookup light (fd, &err, &fput needed); 
if (!sock) 

goto out; 
/* 控制 信息 清 零 */ 
msg.msg_control = NULL; 
msg.msg controllen = 
/* 设置 清 息 的 数据 段 信息 
msg.msg iovlen = 1; 
msg.msg iov = &iov; 
iov.iov len = size; 
iov.iov base = ubuf; 
/* 设置 消息 的 存储 地 址 信息 */ 
msg.msg name = (struct sockaddr *) &address; 
msg.msg namelen = sizeof (address); 
/* 如 果 套 接 字 设 置 了 O_NONBLOCK 标 志 ， 即 非 阻塞 标志 ， 则 设置 MSG_DONTWAIT 标 志 ， 表 示 此 次 接收 消息 ， 无 须 等 待 */ 
if (sock->file->f flags & O NONBLOCK) 

flags |= MSG DONTWAIT; — 
/* 调用 sock recvmsg 接 收 数 据 */ 
err = sock Tecvmsg (Sock， &msg, size, flags); 
/* 将 地 址 信息 复制 到 用 户 空间 */ 
if (err >= 0 && addr != NULL) { 

err2 = move addr to user((struct sockaddr *) &address, 

msg.msg_namelen, addr, addr len); 
if (err2 < 0) 
SrE = Orr2: 


i 

fput light (sock->file, fput needed); 
out: 

return err; 


后 面 的 调用 流程 则 为 sock_recvmsg 一 _ sock_recvmsg 一 _sock_recvmsg_nosec。 


下 面 跟踪 第 三 个 接收 数据 包 的 系统 调用 recvmsg， 代 码 如 下 : 


SYSCALL DEFINE3 (recvmsg, int, fd, struct msghdr _user *, msg, 
unsigned int, flags) 
{ 
int fput needed, err; 
struct msghdr msg_sys; 
/* 从 文件 描述 符 fd 获 得 套 接 字 */ 
struct socket *sock = sockfd lookup light (fd, &err, &fput needed); 


if (!sock) 
goto out; 
/* __Ssys_recvmsg 用 于 实现 接收 数据 */ 
err = SYS_recvmsg (sock, msg, &msg sys, flags, 0); 


/* 释放 f9 引 用 (如果 需要 的 话 ) ， 这 也 是 fput_1ight 与 fput 的 区 别 */ 
fput light (sock->file, fput needed); 

out: 本 
return err; 


下 面 进入 _sys_recvmsg， 代 码 如 下 : 


static int _ sys_recvwmsg(struct socket *sock, struct msghdr _ user *msg, 
struct msghdr *msg_sys, unsigned flags, int nosec) 
{ 
struct compat msghdr _ user *msg compat = 
(struct compat msghdr _user *)msg; 
struct iovec iovstack[UIO FASTIOV]; 
struct iovec *iov = iovstack; 
unsigned long cmsg ptr; 
int err, iov size, total len, len; 
/* kernel mode address */ 
struct sockaddr storage addr; 
/* user mode address pointers */ 
struct sockaddr _user *uaddr7 
int _ user *uaddr len; 
/* 将 消息 头 从 用 户 空间 复制 到 内 核 空间 */ 
if (MSG CMSG COMPAT & flags) { 
if (get compat msghdr (msg sys, msg_compat)) 
return -EFAULT; 
} else if (copy from user (msg_ sys, msg, sizeof(struct msghdr))) 
return -EFAULT; 
err = -EMSGSIZE; 
/* 检查 数据 段 的 个 数 */ 
if (msg_ sys->msg iovlen > UIO MAXIOV) 
goto out; 


/* 


为 了 避免 频繁 申请 内 存 ， 内 核 在 栈 上 申请 了 UIO_FASTIOV 大 小 的 iovec 数 组 以 供 iov 使 用 。 当 数据 段 个 数 超过 UIO _FASTIOV 时 ， 就 需要 动态 申请 内 存 。*/ 


err = -ENOMEM; 
iov_ size = msg_sys->msg iovlen * sizeof(struct iovec); 
if (msg sys->msg iovlen > UIO FASTIOV) { 

iov = sock kmalloc (sock->sk, iov size, GFP KERNEL); 


if (!iov) 
goto out; 
} 
/* 验证 用 户 传递 的 数据 段 参数 和 地 址 参数 */ 
uaddr = (_ force void _user *)msg sys->msg name; 


uaddr len = COMPAT NAMELEN (msg); 
if (MSG CMSG COMPAT & flags) { 
err = verify compat iovec (msg sys, iov, 
(struct sockaddr *) &addr, 
VERIFY WRITE); 
} else 
err = verify iovec(msg sys, iov, 
(struct sockaddr *)&addr, 
VERIFY WRITE); 
if (err < 0) 
goto out freeiov; 
total len = err; 
= (unsigned long)msg_ sys->msg_control; 
息 标志 中 只 有 内 核 支 持 的 两 个 标志 */ 
msg_sys->msg flags = flags & (MSG CMSG CLOEXEC|MSG CMSG COMPAT); 
/* 如 果 套 接 字 为 非 阻塞 ， 则 设置 标志 位 为 不 等 待 ( 非 阻塞 ) */ 
if (sock->file->f flags & O NONBLOCK) 
flags |= MSG DONTWAIT; — 
/* 根据 安全 检查 标志 ， 调 用 不 同 的 接收 函数 ， 但 最 终 都 会 调用 到 sock_recvmsg */ 
err = (nosec ? sock recvwmsg nosec : sock recvmsg) (sock, msg_sys, 
total len, flags); 


if (err < 0) 
goto out freeiov; 
len = err; 
/* 将 发 送 端的 地 址 复制 到 用 户 空 间 */ 
if (uaddr != NULL) { 
err = move addr to user((struct sockaddr *)&addr, 
msg_sys->msg_namelen, uaddr, 
uaddr len); 
if (err < 0) 
goto out freeiov; 


由 上 面 的 代码 可 以 看 出 ， 内 核 提 供 的 三 个 接收 数据 包 的 系统 调用 ， 最 终 确 实 如 我 们 所 期 望 的 ， 都 会 走 到 一 个 共同 的 函数 _sock_recvmsg_nose 里 。 下 面 来 看 一 下 这 


个 


函数 ， 代 码 如 下 : 


static inline int 
{ 

struct sock iocb *si = kiocb to siocb (iocb); 

sock Update : classid (sock->sk); 

/* 设置 套 接 字 异步 TO 信息 */ 

Si->sock = sock; 

si->scm = NULL; 

Si->msg = msg; 

si->size = size; 

si->flags = flags; 

/* 根据 不 同 的 套 接 字 类 型 ， 调 用 不 同 的 数据 接收 函数 */ 

return sock->ops->recvmsg (iocb， sock, msg, size, flags); 


_ sock recvmsg nosec(struct kiocb *iocb, struct socket *sock,struct msghdr *msg, size t size, int flags) 


根据 上 面 的 代码 ， 后 面 的 接收 流程 就 要 依赖 于 具体 的 协议 实现 了 。 


14.3 UDP 数据 包 的 接收 流程 


首先 ， 我 们 来 分 析 一 下 相对 简单 的 UDP 协议 的 数据 包 接收 流程 ， 代 码 如 下 : 


int udp_recvmsg (struct kiocb *iocb, struct sock *sk, struct msghdr *msg, 
size t len, int noblock, int flags, int *addr len) 
{ 
struct inet sock *inet = inet sk(sk); 
/* 让 sin 指 向 msg_name， 用 于 保存 发 送 端 地 址 A 
struct sockaddr in *sin = (struct sockaddr in *)msg->msg name; 
struct sk buff *skb; 
unsigned int ulen, copied; 
int peeked; 
int err; 
int is udplite = IS UDPLITE (sk); 
bool slow; 
/* 车 addr_ len 不 为 NULL， 即 用 户 传递 了 地 址 长 度 参 数 。 进 入 了 具体 的 协议 层 ， 已 经 可 以 
if (addr len) 
*addr len = sizeof (*sin); 
/* 用 户 设置 了 MSG_ERRQUEUE 标 志 ， 用 于 接收 错误 消息 。 
if (flags & MSG ERRQUEUE) 
return ip recv error(sk, msg, len); 


因为 这 个 应 用 并 不 广泛 ， 因 此 在 


try again: 
/* 接收 了 一 个 数据 报 文 */ 
Skb = _ skb recv datagram(sk, flags | (noblock ? MSG DONTWAIT : 0), 


&peeked, &err); 

/* 车 没有 收 到 报 文 ， 则 直接 退出 */ 
if (!skb) 

goto out; 
Ye 得到 DbP 的 数据 长度 
ulen = skb->len - sizeof (struct udphdr) 7 
/* 要 复制 的 长 度 被 初始 化 为 用 户 指定 的 长 度 */ 
copied = len; 
/* 若 复 制 长 度 大 于 UDP 的 数据 长 度 ， 
if (copied > ulen) 

copied = ulen; 
else if (copied < ulen) 

msg->msg_flags |= MSG TRUNC; 
/* 


人 了 数据 截断 ， 或 者 我 们 只 需要 部 分 履 盖 的 校 验 和 ， 那 么 就 在 复制 前 进行 校 验 。 


if (copied < ulen || UDP_SKB_CB (skb) ->partial_cov) { 
/* 进行 UDP 校 验 和 校 验 */ 
if (udp lib checksum complete (skb)) 
goto csum copy err; 


判断 是 否 需要 进行 校 验 和 校 验 */ 
fr (skb_csum unnecessary (skb)) 
/* ”车 不 需要 进行 校 验 ， 迪 统 复 机 用 据 包 和 内 容 到 msg_iov 中 */ 
err = skb copy datagram iovec (skb, sizeof (struct udphdr), 
msg->msg_iov, copied); 


else { 
/* 复制 数据 包 内 容 的 同时 ， 进 行 校 验 和 校 验 */ 
err = Skb_copy_and_csum datagram iovec (skb, 
sizeof (struct udphdr), 
msg->msg iov); 
if (err 一 -EINVAL) 
goto csum copy err; 


} 
/* 复制 错误 检查 */ 
if (err) 

goto out free; 
/* 如 果 不 是 peek 动 作 ， 则 增加 相应 的 统计 计数 */ 
if (!peeked) 

UDP_INC_STATS USER(sock net (sk), 

UDP MIB INDATAGRAMS, is udplite); 

/* 更 新 套 接 字 的 最 新 的 接收 数据 包 时 间 鹤 及 丢 包 消息 */ 
sock_ recv ts and drops(msg, sk, skb); 
/* 如 果 用 户 指定 了 保存 对 端 地 址 的 参数 ， 则 从 数据 包 中 复制 地 址 和 端口 信息 */ 
if (sin) { 

sin->sin family = AF _INET; 

sin- >sin port = udp 1 hdr (skb) ->source; 

sin->sin addr.s : addr = ip_hdr (skb) ->sagdr; 

memset (sin->sin : | zero, 0, sizeof (sin->sin zero)); 


} 

/* 设置 了 接收 控制 消息 */ 

if (inet-: ds flags) { 
/* 接收 控制 消息 如 TTL、TOS 等 */ 
ip_cmsg_ recv (msg, skb); 


i 
/* 设置 了 已 复制 的 字 节 长 度 */ 
err = copied; 
if (flags & MSG TRUNC) 
err = ulen; 
out free: 
/* 释放 接收 到 的 这 个 数据 包 */ 
Skb free datagram locked(sk, skb); 
out: 
/* 返回 读 取 的 字 节 数 */ 
return err? 
/* 错误 处 理 */ 


明确 地 址 的 长 度 信息 了 。 */ 


此 忽略 这 种 情况 ， 不 进入 该 函数 。 */ 


则 调整 复制 长 度 为 数据 长 度 。 若 复制 长 度 小 于 数据 长 度 ， 则 设置 标志 MSG_TRUNC， 表 示 数 据 发 生 了 截断 。 */ 


来 说 ， 
大 小 时 ， 内 核 会 将 报 文 截断 ， 只 复制 缓存 大 小 的 数据 ， 同 时 设置 上 MSG_TRUNC 截 断 标志 


从 上 面 的 代码 中 ， 我 们 可 以 得 到 一 个 大 部 分 书 中 都 不 会 涉及 的 信息 。 先 想 一 想 ， 
这 个 问题 比较 简单 ， 因 为 其 是 流 协议 ,没有 数据 报 文 边界 ， 所 以 这 次 未 读 取 的 数 


再 进入 _skb recv_datagram， 来 查看 UDP 是 如 何 接收 报 文 的 ， 代 码 如 下 : 


在 读 取 一 个 UDP 数据 包 时 ， 如 果 传 递 给 接口 的 缓存 空间 小 于 UDP 数据 包 的 实际 大 小 时 ， 结 果 会 是 什么 样 的 呢 ? 对 于 TCP 
居 ， 会 在 下 一 次 读 取 时 被 复制 。 但 是 UDP 是 基于 数据 包 的 ， 从 上 面 的 内 核 源码 可 以 看 到 ， 
志 。 这 种 情况 ， 是 很 难 从 书本 上 了 解 到 的 ， 只 有 通过 阅读 源码 才能 理解 其 中 的 奥妙 。 


当 缓 存 小 于 UDP 报 文 的 实际 


Struct sk buff * skb recv datagram(Struct sock *sk, unsigned flags, 
int *peeked, int *err) 


{ 


struct sk buff *skb; 
long timeo; 
/* 检查 套 接 字 是 否 出 错 */ 
int error = sock error (sk); 
if (error) 
goto no packet; 
/* 得 到 超时 时 间 ， 如 果 设 置 了 MSG _DONTWAIT， 则 超时 为 0。 
timeo = sock rcvtimeo(sk, flags & MSG DONTWAIT); 
do { 
unsigned long cpu flags; 


spin lock irqsave(&sk->sk receive queue.lock, cpu flags); 


/* 得 到 接收 队列 的 第 一 个 数据 包 */ 
Skb = skb peek(&sk->sk receive queue); 
if (skb) { 

*peeked = skb->peeked; 


/* 如 果 只 是 查看 动作 ， 则 要 增加 数据 包 的 引用 计数 ， 并 不 用 把 数据 包 从 队列 中 移 除 。 


if (flags & MSG PEEK) { 
skb->peeked = 1; 
atomic inc(&skb->users); 
} else { 
/* 将 数据 包 从 接收 队列 中 删除 */ 
_ Skb unlink(skb, &sk->sk receive queue); 
} 
} 


spin unlock irqrestore(&sk->sk receive queue.lock, cpu flags); 


/* 得 到 了 数据 包 ， 直 接 返 回 */ 
if (skb) 
return skb; 


/* 车 已 经 没有 了 剩余 的 超时 时 间 ， 则 跳 转 到 no_packet 并 返回 NULL */ 


error = -EAGAIN; 
if (!timeo) 
goto no packet; 

/* 使 Fask 在 套 接 字 上 等 待 */ 
} while (!wait_for packet (sk, err, &timeo)); 
return NULL; 

no packet: 

*err = error; 
return NULL; 


如 果 当 前 的 UDP 套 接 字 没 有 数据 包 ， 则 会 进入 wait_for_packet 进 行 等 待 ， 代 码 如 下 : 


static int wait for packet (struct sock *sk, int *err, long *timeo p) 


{ 
int error; 
/* 定义 等 待 队列 和 回调 的 唤醒 函数 */ 
DEFINE WAIT FUNC (wait, receiver wake function); 


/* 初始 化 等 待 队列 ， 需 要 注意 的 是 TASK ITNTERRUPTIBLE。 这 表明 进程 在 睡眠 等 待 时 ， 是 可 以 被 中 断 的 。 


Wy 


Prepare to wait exclusive (sk sleep(sk), &wait, TASK INTERRUPTIBLE); 


/* 检查 委 接 字 是 否 出 错 ， 如 被 RESET。 如 有 错误 ， 则 直接 退出 。 */ 
error = sock error (sk); 
if (error) 
goto out err; 
/* 车 接收 队列 不 为 空 ， 则 可 以 直接 退出 */ 
if (!skb queue empty(&sk->sk receive queue)) 
goto out; 
/* 检查 套 接 字 是 否 已 经 做 了 接收 半 关 闭 */ 
if (sk->sk shutdown & RCV_SHUTDOWN) 
goto out noerr; 


/* 如 果 套 接 字 是 基于 连接 的 ， 并 且 不 是 处 于 已 连接 状态 或 监听 状态 ， 则 报错 退出 */ 


error = -ENOTCONN; 
if (connection based(sk) && 


! (sk->sk_state 一 TCP ESTABLISHED || sk->sk state 一 TCP_LISTEN)) 


goto out err; 
/* 是 否 有 未 处 理 的 信号 */ 
if (signal pending (current) ) 
goto interrupted; 
error = 07 


/* 将 当前 进程 调度 出 去 ， 直 到 超时 ， 即 进程 已 经 休眠 了 设 定 的 超时 时 间 。 但 是 由 于 某 些 原因 ， 进 程 被 提前 唤 


醒 ， 所 以 需要 保存 返回 的 时 间 *timeo_P， 表 示 还 剩 下 多 少时 间 。 
*timeo p = Schedule timeout (*timeo p); 
out: 
finish wait (sk sleep(sk), &wait); 
return error; 加 
interrupted: 
error = 
out err: 
“*err = error; 
goto out; 
out noerr: 
“x*err=0 
error = 


*y 


sock intr errno(*timeo p); 


7 goto out; 


至 此 ，UDP 数 据 包 的 接收 流程 已 经 跟踪 完毕 。 但 是 这 里 遗留 了 一 个 问题 
做 分 解 讨 论 。 


14.4 TCP 数 据 包 的 接收 流程 


: 在 上 面 的 代码 中 ， 报 文 是 从 接收 队列 中 获得 的 ， 


但 是 数据 包 又 是 如 何 被 保存 到 套 接 字 的 接收 队列 中 的 呢 ? 这 个 问题 留 到 后 面 再 


14.3 节 跟踪 了 UDP 数据 包 的 接收 流程 ， 本 节 来 分 析 一 下 TCP 数 据 包 的 接收 流程 。 根 据 TCP 协 议 的 复杂 性 可 想 而 知 ， 其 接收 流程 自然 也 比 UDP 要 繁琐 得 多 。 


int tcp recvmsg (struct kiocb *iocb, struct sock *sk, struct msghdr *msg, 


size t len, int nonblock, int flags, int *addr len) 
{ 
struct tcp sock *tp = tcp sk(sk); 
int copied = 0; 
U32 peek seq; 
U32 *seq; 
unsigned long used; 
int err; 
int target; 
long timeo; 
struct task struct *user recv = 
int copied early = 0; 
struct sk buff *skb; 
u32 urg hole = 0; 
/* 对 套 接 字 上 锁 */ 
lock sock (sk); 
err = -ENOTCONN; 
/* 如 果 套 接 字 为 监听 状态 ， 则 跳 转 到 退出 分 支 */ 
if (sk->sk state 一 TCP LISTEN) 
goto out; 
/* 与 UDP 类 似 ， 得 到 超时 时 间 */ 
timeo = sock rcvtimeo(sk, nonblock); 


/* Read at least this many bytes */ 


NULL; 


/* 设置 了 MSG GOB 标 志 ， 即 带 外 数据 ， 对 于 TCP 来 说 ， 就 是 接收 紧急 数据 */ 


if (flags & MSG OOB) 
goto recv urg; 
/* 得 到 与 预 读 取 TCP 数 据 相 对 应 的 序列 号 */ 
seq = &tp->copied seq; 
if (flags & MSG PEEK) { 
peek seq = tp->copied seq; 
seq = &peek seq; 


} 
/* 


因为 TCP 是 流 协议 ， 数 据 没 有 边界 ， 所 以 需要 计算 接收 数据 的 最 小 长 度 。 
1) 车 设置 了 MSG_WAITALL， 则 目标 为 用 户 指定 的 长 度 ; 

2) 不 然 ， 则 选择 套 接 字 的 低 水 线 和 用 户 指定 长 度 的 最 小 值 ; 

如 果 第 二 种 情况 的 最 小 值 为 0， 则 数据 长 度 为 1 字 节 ; 


target = sock rcvlowat (sk, flags & MSG WAITALL, len); 


/* 


CONFIG NET _DMR 编 译 选 项 的 含义 为 TCP 接 收复 制 却 载 。 利 用 DMR 来 将 接收 到 的 数据 复制 到 用 户 空间 ， 


A 


#ifdef CONFIG NET DMA 
tp->ucopy.dma chan = NULL; 
preempt disable(); 


skb 
{ 


} 
#endif 
dof{ 


= Skb peek tail(&sk->sk receive queue); 


int available = 0; 
/* 接收 队列 中 有 未 读 的 数据 包 */ 
if (skb) { 
/* 计算 可 读 的 数据 量 */ 
available = TCP_SKB CB(skb)->seq + skb->len - (*seq); 


} 
if ((available < target) && 
(len > sysctl tcp dma copybreak) && ! (flags & MSG PEEK) && 
!1sysct1_ tcp low latency && 
Gma_ find channel (DMA MEMCPY)) { 
preempt _ enable no resched(); 
/* 确定 MA 要 使 用 的 狼 据 段 */ 
tp->ucopy.pinned list = 
Gma pin iovec pages (msg->msg iov, len); 
} else { 
preempt_ enable no resched(); 


u32 offset; 
/* 判断 是 否 正在 读 取 紧 急 数 据 */ 
if (tp->urg data && tp->urg seq 一 *seq) { 
/* 如 果 已 经 读 取 了 一 定量 的 数据 ， 则 结束 读 取 */ 
if (copied) 
break; 
/* 如 果 有 未 处 理 的 信号 ， 也 结束 读 取 */ 
if (signal pending (current)) { 
Copied = timeo ? sock intr errno(timeo) : -EAGAIN; 
break; 
} 


} 
/* 遍历 接收 队列 */ 
Skb queue walk(&sk->sk receive queue, skb) { 
/* Now that we have two receive queues this 
* shouldn't happen. 
大 
/ 
if (WARN (before(*seq, TCP_SKB CB (skb)->seq), 
"recvmsg bug: copied %X seq %X rcvnxt %X fl1 %X\n", 
*seq, TCP_SKB CB (skb)->seq, tp->rcv nxt, 
flags)) 
break; 
/* 取得 在 数据 包 中 的 偏 移 ， 即 上 次 没有 将 这 个 数据 包 读 取 完 毕 */ 
offset = *seq - TCP_SKB_CB (skb) ->seq7 
/* Syn 标 志 会 占用 一 个 sequence， 所 以 偏 移 减 一 */ 
if (tcp_hdr (skb) ->syn) 
offset——} 
/* 车 偏 移 小 于 数据 包 长 度 ， 则 这 个 数据 包 就 是 要 接收 的 数据 包 */ 
if (offset < skb->len) 
goto found ok skb; 
/* 如 果 当 前 数据 一 包 售 FTN 标 志 ， 则 跳 转 到 fin 处 */ 
if (tcp hadr (skb) ->fin) 
goto found fin ok; 
WARN (! (flags & MSG PEEK), 
"recvmsg bug 2: copied %X seq %X rcvnxt %X fl1 %X\n", 
*seq, TCP_SKB CB (skb)->seq, tp->rcv nxt, flags); 


} 
/* 若 已 经 复制 了 超过 目标 的 数据 并 且 有 积压 的 数据 ， 则 立刻 跳出 ， 并 尝试 处 理 积压 数据 。 
if (copied >= target && !sk->sk backlog.tail) 
break; 
/* 


从 而 节省 CPU。 


*y 


这 里 针对 是 否 已 经 复制 了 部 分 数据 做 了 条 件 判 断 ， 而 且 每 个 分 支 中 都 有 相似 的 条 件 判 断 ， 为 什么 要 


分 两 种 情 ? 
返回 值 要 返回 成 功 读 取 的 字 节 数 ; 而 未 读 取 任何 数据 ， 则 返回 -1 错误 。 
od 
if (copied) { 

/* 


已 复制 了 部 分 数据 ， 检 查 下 面 几 个 条 件 : 
1) 套 接 字 出 错 。 

2) 连接 已 经 关闭 。 

3) 套 接 字 关 闭 了 接收 端 。 

4) 已 经 超时 。 

5) 有 待 处 理 的 信号 。 

2 则 跳出 接收 数据 循环 。 


if (sk->sk err || 
Sk->sk state 一 TCP CLOSE || 
(sk->sk_shutdown & RCV_SHUTDOWN) || 
!timeo || 
signal pending (current)) 
break; 

} else { 
/* 
车 套 接 字 设 置 了 SOCK_DONE 标 志 ， 则 跳出 循环 。 


呢 ? 因为 在 读 取 过 程 中 ， 如 果 发 生 了 同样 的 错误 ， 只 读 取 了 部 分 数据 ， 那 么 系统 调用 的 


对 于 TCP 来 说 ， 被 动 关闭 时 ， 套 接 字 会 被 设置 上 这 个 标志 。 这 就 意味 着 对 端 已 经 关闭 ， 所 以 不 


ye 了 。 


if (sock flag(sk, SOCK DONE)) 
break; 

/* 判断 套 接 字 是 否 出 错 */ 

if (sk->sk err) { 
Copied = sock error (sk); 
break; 


/* 套 接 字 关 闭 了 接收 端 */ 
if (sk->sk shutdown & RCV_SHUTDOWN) 
break; 


/* 套 接 字 状 态 为 关闭 状态 但 又 没有 设置 SOCK_DONE 标 志 ， 这 种 情况 只 发 生 在 用 户 企图 从 一 个 未 连接 的 套 接 字 中 读 取 数据 时 。 */ 


if (sk->sk state 一 TCP CLOSE) { 
if (!sock flag(sk, SOCK DONE)) { 
copied = -ENOTCONN; 
break; 
} 
break; 


/* 已 经 超时 */ 

if (!timeo) { 
copied = -EAGAIN; 
break; 


/* 有 未 处 理 的 信号 */ 

if (signal pending(current)) { 
Copied = sock intr errno (timeo) 7 
break; 

} 


EF 

/* 清除 已 经 读 取 的 数据 包 */ 

tcp cleanup rbuf (sk, copied); 

/* 要 进行 低 延 时 的 TCP 处 理 */ 

if (!sysctl tcp low latency && tp->ucopy.task 一 user recv) { 
/* 保存 用 户 进 程 地址 */ 
if (luser recv && ! (flags & (MSG TRUNC | MSG PEEK))) { 

user recv = current; 


tp->ucopy.task = user recv; 
tp->ucopy.iov = msg->msg_iov; 

} 

tp->ucopy.1len = len; 

WARN_ON (tp->copied seq != tp->rcv nxt && 
! (flags & (MSG PEEK | MSG TRUNC))); 

J/# 

处 理 完 receive queue， 需 要 处 理 prequeue 。 

TCP 套 接 字 有 三 个 队列 ， 需 要 按照 以 下 顺序 来 处 理 : 

1) receive queue; 

2) prequeue; 

3) backlog; 

wf 

if (!skb queue empty (&tp->ucopy.prequeue)) 
goto do prequeue; 

/* _ Set realtime policy in scheduler _ */ 


} 
#ifdef CONFIG NET DMA 
if (tp->ucopy.dma chan) { 
if (tp->rcv wnd 一 0 && 
!skb_queue empty (&sk->sk async wait queue)) { 
/* 
接收 窗口 已 经 为 0， 并 且 有 进程 正在 等 待 数 据 ， 这 时 就 要 尽快 接收 数据 。 所 以 这 里 的 dma 操作 为 同步 的 。 
wf 
tcp_service net dmal(sk, true); 
top x cleanup | rbuf (sk, copied); 
} else 
dma_async memcpy_ issue pending (tp->ucopy.dma chan); 


#endif 
if (copied >= target) 
/* 若 已 经 复制 了 超过 a 标的 数据 量 ， 则 释放 该 套 接 字 */ 
release sock (sk); 
lock sock (sk); 
} else { 
/* 等 待 更 多 的 数据 */ 


Sk wait datal(sk, &timeo); 


} 
#ifdef CONFIG NET DMA 
tcp_service net dmal(lsk, false); /* Don't block */ 
tp->ucopy.wakeup = 0; 
#endif 
if (user recv) { 
int chunk; 
/* __ Restore normal policy in scheduler _ */ 
if ((chunk = len - tp->ucopy.len) != 0) { 
NET ADD STATS USER(sock net (sk), 
~ LINUX MIB TCPDIRECTCOPYFROMBACKLOG, chunk); 
len -= chunk; 
copied += chunk; 


} 
/* 处 理 完 receive_queue， 再 继续 处 理 prequeue */ 
if (tp->rcv nxt 一 tp->copied seq && 
!skb_queue empty (&tp->ucopy.prequeue)) { 
do_prequeue: 
tcp prequeue process (sk); 
/* 计算 从 prequeue 中 读 取 的 数据 长 度 ， 并 调整 相应 的 len 和 copied。 */ 
if ((chunk = len - tp->ucopy.len) != 0) { 
NET_ADD STATS USER(sock net (sk), 
“LINUX I MIB _TCPDIRECTCOPYFROMPREQUEUE., chunk); 
len -= chunk; 
Copied += chunk; 


} 


} 
if ((flags & MSG PEEK) && 
(peek_ seq - copied - urg hole != tp->copied seq)) { 
if (net ratelimit()) 
printk (KERN DEBUG "TCP(%s:%d): Application bug, race in MSG PEEK,.\n", 
current->comm, task pid nr (Current) ) 7 
peek seq = tp->copied seq; 
} 
continue; 
found ok skb: 
/* Ok so how much can we use? */ 
/* 找到 了 正确 的 skb， 计 算 该 Skb 未 读 的 可 用 数据 长 度 */ 
used = skb->len ~- offset; 
/* 如 果 用 户 要 读 取 的 长 度 小 于 当前 的 剩余 长 度 ， 则 调整 可 用 长 度 */ 
if (len < used) 
used = len; 
判断 是 否 有 紧 : 
不 推荐 在 日 常 编码 中 使 用 ) 
if (tp->urg data) { 
/* 得 到 紧急 数据 的 偏 移 */ 
U32 urg offset = tp->urg seq - *seq; 
/* 判断 紧急 数据 是 否 在 我 们 要 读 取 的 数据 范围 内 */ 
if (urg offset < used) { 
if (!urg offset) { 
/* 判断 紧急 数据 是 否 在 普通 数据 流 中 */ 
if (!sock flag(sk, SOCK URGINLINE)) { 
/* 车 不 在 普通 数据 流 中 ， 则 要 忽略 当前 这 个 字 节 
++*Sseq; 
urg holett; 
offset+t+; 
used-——; 
if (!used) 
goto skip copy; 


i 在 协议 定义 本 身 一 直 都 有 些 争议 。 所 以 其 实现 代码 也 比较 奇怪 。 一 


} 
} else 
used = urg offset; 
} 


} 
/* 没有 设置 截断 标志 */ 
if (! (flags & MSG TRUNC)) { 
/* 先 尝 试 使 用 DMA 来 将 数据 复制 到 用 户 空间 */ 
#ifdef CONFIG NET DMA 
if {!tp->ucopy.dma chan && tp->ucopy.pinned list) 
tp->ucopy.dma_ chan = dma find channel (DMA MEMCPY); 
if (tp->ucopy.dma chan) { 
tp->ucopy.dma_ cookie = dma skb copy datagram iovec( 
tp->ucopy.dma_ chan, skb, offset, 
msg->msg_iov, used, 
tp->ucopy.pinned list); 
if (tp->ucopy.dma cookie < 0) { 
printk (KERN ALERT "dma cookie < 0\n"); 
/* Exception. Bailout! */ 
if (!copied) 
Copied = -EFAULT; 
break; 
} 
dma_async memcpy issue pending (tp->ucopy.dma chan); 
if ((offset + ea == skb->len) 
copied early = 


} else 
#endif 


/* 复制 数据 到 用 户 空间 */ 
err = skb copy datagram iovec(skb, offset, 
msg->msg_iov, used); 
if (err) { 
/* Exception. Bailout! */ 
if (!copied) 
Copied = -EFAULT; 
break; 


} 
} 
/* 调整 序列 号 x*seq、 已 复制 长 度 、 剩 余 长 度 */ 


*seq += used; 


copied += used; 

len -= used; 

/* 因为 成 功 读 取 了 数据 ， 所 以 要 调整 TCP 套 接 字 的 接收 缓存 */ 

tcp_ rcv_space adjust (sk); 

Skip_copy: 

/* 如 果 正 在 读 取 ， 并 且 已 读 取 的 序列 号 大 于 紧急 数据 ， 则 意味 着 已 经 读 取 完了 紧急 数据 ， 那 么 就 
要 重 置 urg_data， 并 且 进 行 TCP 快 速 路 径 检查 (如果 通过 了 检查 条 件 ， 则 打开 快速 路 径 开 关 。 
打开 快速 路 径 的 时 候 ， 表 示 接 收 的 数据 包 是 预期 的 数据 包 ，TCP 接 收 数 据 包 时 会 做 比较 少 的 检 
查 ， 因 此 接收 更 为 快速 ) */ 

if (tp->urg data && after (tp->copied seq, tp->urg seq)) { 

tp->urg data = 0; 
tcp_fast path check (sk); 


} 
/* 使 用 的 数据 长 度 加 上 偏 移 若 小 于 数据 包 的 长 度 ， 则 该 数据 包 可 以 继续 使 用 */ 
if (used + offset < skb->len) 
continue; 
/* 如 果 该 数据 包 有 FIN 标 志 ， 则 跳 转 到 found fin ok */ 
if (tcp hdr (skb) ->fin) 人 
goto found fin ok; 
/* 如 果 没有 设置 MSG_PEEK 标 志 ， 则 需要 从 接收 队列 中 消耗 掉 这 个 数据 包 ， 并 根据 copied 
early 标 志 ， 将 其 直接 释放 ， 或 者 放置 到 异步 队列 */ 
if (! (flags & MSG PEEK)) { 
sk eat skbl(sk, skb, copied early); 
copied early = 0; 


} 
continue; 
found fin ok: 

/* 这 里 开始 处 理 FIN 数 据 包 */ 

/* FIN 标 志 也 占用 一 个 序列 号 ， 因 此 要 给 序列 号 加 一 */ 

++*Sseq; 

/* 与 前 文 相同 ， 不 再 重复 注释 */ 

if (! (flags & MSG PEEK)) { 
Sk eat skbl(sk, skb, copied early); 
copied early = 0; 


} 
/* 接收 到 FTN 标 志 ， 表 示 对 端 已 经 关闭 了 写 通道 ， 那 么 对 于 本 端 来 说 ， 这 是 最 后 一 个 可 读数 据 包 ， 
因此 退出 循环 */ 
break; 
} while (len > 0); 
if (user recv) { 
/* prequeue 队 列 中 仍然 有 未 读 取 的 数据 包 */ 
if (!skb queue empty(&tp->ucopy.prequeue)) { 
int chunk; 
/* 设置 要 读 取 的 长 度 */ 
tp->ucopy.len = copied > 0 ? len : 0; 
/* 处 理 prequeue 队 列 */ 
tcp_ prequeue process (sk); 


if Tcopied > 0 && (chunk = len - tp->ucopy.len) != 0) { 
NET_ ADD STATS USER(sock net (sk), LINUX MIB TCPDIRECTCOPYFROMPREQUEUE, chunk); 
len -= chunk; 


copied += chunk; 
} 

} 

tp->ucopy.task = NULL; 

tp->ucopy.len = 0; 


} 
#ifdef CONFIG NET DMA 
tcp service net dmal(sk, true); /* Wait for queue to drain */ 
tp->ucopy.dma_chan = NULL; 
if (tp->ucopy.pinned list) { 
dma_unpin iovec pages (tp->ucopy.pinned list); 
tp->ucopy.pinned list = NULL; 


} 
#endif 
/* 释放 已 经 读 取 的 数据 包 */ 
tcp cleanup rbuf (sk, copied); 
/* 释放 套 接 字 控 制 权 */ 
release sock (sk); 
return copied; 
out: 
release_sock (sk); 
return err; 
recv_urg: 
/* 接收 紧急 数据 */ 
err = tcp recv urg(sk, msg, len, flags); 
goto out7 


尽管 上 面 的 tcp_recvmsg 已 经 加 了 大 量 的 注释 ， 但 是 由 于 这 个 函数 的 逻辑 过 于 复杂 ， 再 加 上 TCP 接 收 队列 的 多 样 性 ， 即 使 已 经 看 完了 这 个 函数 的 实现 ， 却 仍然 无 法 清楚 地 掌握 它 的 整体 脉络 。 接 下 来 ， 
我 们 会 进一步 分 析 TCP 套 接 字 的 三 个 队列 的 用 途 ， 以 便于 我 们 进一步 理解 TCP 数 据 包 的 接收 流程 。 


14.5 TCP 套 接 字 的 三 个 接收 队列 


在 Linux 内 核 中 ， 除 了 错误 队列 外 ，TCP 套 接 字 一 共有 三 个 接收 队列 。 它 们 分 别 是 struct sock 中 的 sk_receive_queue 和 sk_backlog, 
途 ， 然 后 再 看 具体 的 代码 实现 。sk_receive_queue 是 真正 的 接收 队列 ， 收 到 的 TCP 数 据 包 经 过 检查 和 处 理 后 ， 就 会 保存 在 这 个 队列 中 ，F 


以 及 struct tcp_sock 中 的 prequeue。 先 简单 介绍 一 下 它们 各 自 的 | 


户 态 也 是 从 这 里 读 取 数 据 的 。sk_backlog 是 socket 正 处 于 用 户 进程 


上 下 文 〈( 即 用 户 正在 对 socket 进 行 系统 调用 ， 如 recv) ， 当 Linux 内 核 收 到 数据 包 时 ， 在 软 中 断 的 处 理 过 程 中 ， 内 核 会 将 数据 包 保 存在 sk_backlog 中 ， 然 后 直接 返回 。 而 prequeue 则 是 在 该 socket 没 有 正在 


被 


这 是 为 什么 呢 ? 这 是 因为 TCP 协 议 相对 复杂 ， 内 核 为 了 尽快 让 软 中 断 结 束 ， 就 不 进行 多 余 的 处 理 了 ， 尽 量 在 用 户 进程 上 下 文中 处 理 数据 包 。 下 面 来 看 看 TCP 相 关 的 源 代 码 。 


首先 ， 查 看 TCP 的 接收 处 理 函 数 tcp_v4_rcv 中 的 一 部 分 代码 : 


户 进程 使 用 时 ， 由 软 中 断 直接 将 数据 包 保存 在 prequeue 中 ， 并 返回 。 从 上 面 的 说 明 可 以 看 出 ， 对 于 TCP 套 接 字 ， 它 不 管用 户 态 是 否 正在 使 用 套 接 字 ， 都 不 做 真正 的 处 理 ， 而 是 把 数据 包 保 存在 队列 中 ， 


bh lock sock nested (sk); 
ret = 0; 
if (!sock owned by user(sk)) { 
/* 用 户 态 没有 正在 使 用 这 个 套 接 字 */ 
#ifdef CONFIG NET DMA 
struct tcp sock *tp = tcp_sk (sk); 
if (!tp->ucopy.dma chan && tp->ucopy.pinned list) 
tp->ucopy.dma chan = dma_ find channel (DMA MFEMCPY); 
if (tp->ucopy.dma chan) 
ret = tcp v4 do rcv(sk, skb); 
else 
#endif 


{ 
/* 先 尝 试 保存 到 prequeue 中 ， 若 失败 的 话 再 进入 TCP 真 正 的 处 理 函 数 中 */ 
if (!tcp prequeue (sk, skb)) 
ret = tcp v4 do rev(sk, skb); 


} 
/* 车 该 套 接 字 正 在 被 用 户 态 使 用 ， 则 将 数据 包 保存 到 backlog 中 。 如 果 失 败 的 话 ， 就 丢弃 这 个 包 。 */ 
} else if (unlikely(sk add backlog(sk, skb))) { 
bh unlock sock(sk); 
NET INC STATS BH(net, LINUX MIB TCPBACKLOGDROP); 
goto discard and relse; 四 
} 
bh unlock sock (sk); 


然后 进入 tcp_prequeue， 看 看 什么 时 候 会 返回 失败 ， 代 码 如 下 : 


{ 


static inline int tcp prequeue (struct Sock *sk, struct sk buff *skb) 


struct tcp sock *tp = tcp sk(sk); 


/* 配置 了 低 延 时 TCP， 或 者 该 套 接 字 没 有 对 应 的 用 户 态 进程 ， 返 回 失败 。 让 内 核 直 接 处 理 TCP 数 据 包 。 


if (sysctl tcp low latency || !tp->ucopy.task) 
return 0; 

/* 将 数据 包 追 加 到 Prequeue 队 列 中 ， 并 增加 相应 的 内 存 统计 。 */ 

__ Skb queue tail (&tp->ucopy.prequeue, skb); 


tp->ucopy.memory += skb->truesize; 
if (tp->ucopy.memory > sk->sk rcvbuf) { 


} 


/* 当 超过 了 套 接 字 指定 的 接收 缓存 大 小 时 */ 
Struct sk buff *skbl; 
BUG ON (sock owned by user (sk)); 
/* 区 数据 包 从 Prequeue 币 转移 到 backlog 中 */ 
while ((skbl = Skb dequeue (&tp->ucopy.prequeue)) != NULL) { 
sk backlog rcv(sk, skb1); 
NET_INC STATS BH(sock net (sk), 
~ LINUX MIB TCPPREQUEUEDROPPED); 
} 
tp->ucopy.memory = 0; 
else if (skb queue len(&tp->ucopy.prequeue) 一 1) { 
/* 如 果 该 数据 包 是 Prequeue 中 的 第 一 个 数据 包 ， 则 唤醒 在 该 套 接 字 中 等 待 接收 的 进程 */ 
wake up interruptible sync poll (sk sleep (sk)， 
POLLIN | POLLRDNORM | POLLRDBAND); 
/* 如 果 ack 定 时 器 没有 被 调度 ， 则 设置 ack 定 时 器 */ 
if (!inet csk ack scheduled (sk)) 
inet csk reset xmit timer(sk, ICSK TIME DACK, 
(37 top rtomin(sk)) /4 
TCP_RTO MAX)? 
} 


return 1; 


le 


然后 查看 sk_add_backlog， 代 码 如 下 : 


{ 


static inline _ must check int sk add backlog(struct sock *sk, struct sk buff *skb) 


/* 接收 队列 已 满 ， 则 返回 ENOBUFS 错 误 。 所 谓 的 接收 队列 已 满 ， 即 接收 缓存 的 数据 包 占 用 的 内 存 超过 了 限制 。*/ 


if (sk rcvqueues full (sk, skb)) 
return -ENOBUFS; 
/* 将 数据 包 追 加 到 backlog 队 列 中 ， 并 增加 相应 的 内 存 统计 。 */ 
__ Sk add backlog (sk, skb); 
Sk->sk backlog.len += skb->truesize; 
return 0; 


看 完 这 些 代码 后 ， 我 们 应 该 产生 一 个 疑问 。 既 然 prequeue 和 backlog 都 是 保存 的 未 经 处 理 的 TCP 数 据 包 ， 那 么 为 什么 还 需要 两 个 不 同 的 队列 呢 ? 为 了 解答 这 个 疑问 ， 就 需要 研究 内 核 是 如 何 使 用 这 两 个 


队列 的 了 。 前 面 的 代码 是 这 两 个 队列 的 写 入 操作 ， 接 下 来 我 们 看 一 下 这 两 个 队列 是 何 时 被 读 取 的 。 


prequeue 队 列 的 处 理 函 数 是 tcp_prequeue_process， 它 是 在 TCP 的 读 取 数 据 函 数 tcp_recvmsg 中 被 调 
由 用 户 进程 所 占有 ， 然 后 会 对 receive_queue 和 prequeue 中 的 数据 包 进 行 处 理 。 正 因为 sock 被 用 户 进程 占用 时 ， 会 访问 prequeue 队 列 ， 所 以 为 了 避免 竞争 ， 软 中 断 在 收 到 数据 包 时 就 只 能 把 数据 包 保存 到 


的 。 在 tcp_recvmsg 的 入 口 ， 内 核 会 调 


lock_sock 来 设置 sk->sk_lock.owned， 表 示 该 套 接 字 


Be: 


backlog 中 。 那 么 为 什么 当 sock 不 被 用 户 进程 占用 时 ， 软 中 断 不 将 数据 包 保存 到 backlog 中 ， 而 是 保存 到 prequeue 中 呢 ? 


要 回答 这 个 问题 ， 还 是 要 继续 查看 backlog 是 何 时 被 读 取 的 。 让 人 觉得 有 点 出 平 意料 的 是 ，backlog 的 数据 包 | 


居然 是 在 _release_sock 中 被 处 理 的 。 


static void 


{ 


_release sock(struct sock *sk) 
_ releases (&sk->sk lock.slock) 
_ acquires(&sk->sk lock.slock) 


struct sk buff *skb = sk->sk backlog.head; 
/* 处 理 backlog 队 列 的 数据 包 */ 


dof{ 
Sk->sk backlog.head = sk->sk backlog.tail = NULL; 
bh unlock sock (sk); 
dof{ 
struct sk buff *next = skb->next; 
WARN ON ONCE (skb dst is noref (skb)); 
skb->next = NULL?7 ”一 
Sk backlog rcv(sk, skb); 
过 
* We are in process context here with Softirqs 
* disabled, use cond resched _ softirq() to preempt. 
* This is safe to do because we've taken the backlog 
* queue private: 
x 
cond resched softirq(); 
Skb = next; 
} while (skb != NULL); 
bh lock sock(sk); 
} while ((skb = sk->sk backlog.head) != NULL); 
入 


* Doing the zeroing here guarantee we can not loop forever 
* while a wild Producer attempts to flood us. 

< 

Sk->sk backlog.len = 0; 


不 过 这 也 解释 了 对 于 TCP 套 接 字 ， 为 什么 需要 两 个 队列 来 保存 未 处 理 的 数据 包 。 


对 于 套 接 字 的 使 用 情况 ， 一 共有 两 个 状态 : 
: 用 户 进程 正在 占用 该 套 接 字 。 
:用户 进程 未 占用 该 套 接 字 。 


而 内 核 在 任何 情况 下 ， 都 要 尽量 保证 尽快 返回 软 中 断 ， 以 避免 资源 竞争 。 因 此 ， 在 套 接 字 的 这 两 个 状态 下 ， 都 要 保证 软 中 断 可 以 毫 无 阻塞 地 将 数据 包 保存 到 未 处 理 队 列 中 ， 自 然 也 就 需要 两 个 队列 了 。 


14.6 


对 于 一 般 的 套 接 字 编程 来 说 ， 大 多 是 应 用 编程 ， 所 以 基本 上 都 是 UDP 或 TCP 协 议 的 套 接 字 。 前 面 两 章 是 从 应 
新 的 问题 ， 数 据 包 是 如 何 进入 对 应 套 接 字 的 接收 缓冲 


从 网 卡 到 套 接 字 


当 用 户 进程 正在 占用 套 接 字 时 ， 其 会 访问 prequeue， 那 么 软 中 断 就 将 数据 包 保存 到 backlog 中 。 当 用 户 放弃 对 套 接 字 的 占用 时 ， 


会 访问 backlog， 而 这 时 ， 软 中 断 就 会 将 数据 包 保存 到 prequeue 中 。 


层次 的 角度 ， 自 上 而 下 地 分 析 了 UDP 和 TCP 数 据 包 的 发 送 和 接收 流程 。 但 同时 也 有 了 一 个 


区 的 呢 ?” 本 章 将 从 网 卡 接收 到 数据 包 开始 ， 一 直 跟 踪 到 内 核 将 数据 包 放 入 到 对 应 的 套 接 字 缓 冲 区 中 为 止 。 


第 15 章 ”编写 安全 无 错 代 码 


通过 前 面 的 章节 ， 


主要 是 学 习 和 分 析 在 Linux 环 境 下 不 同方 


的 系统 调 | 


有 点 奇 技 淫 巧 的 味道 ,但 笔者 的 主要 目的 是 为 了 让 大 家 从 心里 明白 


15.1 


比较 两 个 结构 体 时 ， 若 结构 体 中 含有 大 量 的 成 员 变 量 ， 


可 能 深 藏 隐患 。 请 看 下 面 的 示例 代码 : 


不 要 用 memcmp 比 较 结构 体 


为 了 方便 ， 程 序 员 往往 会 直接 使 


及 内 核实 现 。 本 章 则 将 分 享 笔者 多 年 编程 的 一 些 经 验 ， 主 要 是 从 基础 概念 出 发 ， 介 绍 一 些 编码 细节 ， 
编写 安全 无 错 代码 的 不 易 。 要 对 代码 有 敬畏 之 心 ， 才 能 真正 驾驭 代码 ， 写 出 健壮 的 程序 。 


这 些 细节 看 上 去 有 些 分 散 ， 


memcmp 对 这 两 个 结构 体 进行 比较 ， 以 避免 对 每 个 成 员 进行 分 别 比 较 。 这 样 的 代码 写 起 来 比较 简单 ， 然 而 却 很 


#include <stdio.h> 

#include <stdlib.h> 

#include <string.h> 

typedef struct padding type { 
Short ml; 加 
int m2; 

} padding type t; 

int main() 


padding type t a={ 
.mL 


.m2 = 0， 


Ed 

padding type t b; 

memset (&b, 0, sizeof (b)); 

if (0 一 memcmp (&a, &b, sizeof(a))) { 
printf ("Equal!\n"); 


else { 
printf ("No equal!\n"); 
} 


return 0; 


大 家 先 想 一 下 ， 结 果 会 是 什么 ? 一 起 来 看 看 最 终 的 结 


果 : 


[fgao@ubuntu chapter15]#gcc -Wall 15 1 cmp struct.c 


[fgao@ubuntu chapter15]#./a.out 
No equal! 


为 什么 会 是 这 样 的 结果 呢 ? 有 经 验 的 读者 立刻 就 会 反应 过 来 : 这 是 由 于 对 齐 造成 的 。 


没 错 ! 就 是 因为 struct padding_type->m1 的 类 型 是 short 类 型 ， 而 m2 的 类 型 是 int 类 型 。 根 : 


节 ， 而 这 两 个 字 节 的 内 容 却 是 “随机 ”的 。 结 构 体 b 由 于 调 有 


同 了 ， 即 返回 值 不 为 0。 


所 以 ， 除 非 在 项 目 中 可 以 保证 所 有 的 结构 体 都 会 使 


居 自 然 对 齐 规则 ，struct padding_type 需 
了 memset 对 整个 结构 体 占用 的 内 存 进行 了 清 零 ， 其 padding 的 值 自然 就 为 0%。 这样 ， 当 使 


memset 来 进行 初始 化 (这 个 是 很 难保 证 的 ) ， 否 则 就 不 要 直接 使 


15.2 ”有 符号 数 和 无 符号 数 的 移 位 区 别 


在 代码 规范 中 一 般 都 会 要 求 ， 如 果 没 有 符号 


有 符号 整数 。 


无 符号 整数 ， 避 免 使 


数 与 无 符号 整数 在 移 位 操作 上 的 区 别 。 来 看 一 个 示例 : 


求 ， 则 尽量 使 


memcmp 来 比较 结构 体 。 


进行 4 字 节 对 齐 。 因 此 编译 器 会 在 m1 后 面 插入 两 个 padding 字 


memcmp 对 两 个 结构 体 进行 比较 时 ， 结 论 就 是 不 相 


因为 有 符号 整数 在 一 些 常见 的 操作 中 ， 将 表现 出 与 无 符号 整数 大 相 径 庭 的 行为 。 本 节 将 展示 有 符号 整 


#include <stdio.h> 

#include <stdlib.h> 

int main () 

{ 
int a = Ox80000000; 
unsigned int b = 0x80000000; 


printf("a right shift value is 0x%X\n", a >> 1); 
printf("b right shift value is 0x%X\n", b >> 1); 


return 0; 


[fgao@ubuntu chapter15]#gcc -Wall 15 2 sign shift.c 


[fgao@ubuntu chapter15]#./a.out 
a right shift value is 0xC0000000 
b right shift value is 0x40000000 


为 了 了 解 为 什么 会 产生 这 样 的 结果 ， 


请 看 其 汇编 代码 : 


Dump of assembler code for function main: 


Ox0804841d <+0>: push Ss%ebp 

0x0804841e <+1>: mov Sesp, Sebp 

0x08048420 <+3>: and $0Oxfffffff0, Sesp 
0x08048423 <+6>: sub $0x20, Sesp 

0x08048426 <+9>: movl $0x80000000,0x18 (sesp) 
0x0804842e <+17>: movl $0x80000000,0xlc (sesp) 
0x08048436 <+25>: mov 0x18 (Sesp) ,Seax 
0x0804843a <+29>: sar Seax 

0x0804843c <+31>: mov Seax, Ox4 (Sesp) 
0x08048440 <+35>: movl $0x8048500, (sesp) 
Ox08048447 <+42>: call 0x80482f0 <printf@plt> 
Ox0804844c <+47>: mov Oxlc (Sesp), Seax 
0x08048450 <+51>: shr Seax 

0x08048452 <+53>: mov Seax, 0x4 (Sesp) 
0x08048456 <+57>: movl $0x804851d, ($esp) 
0x0804845d <+64>: call 0x80482f0 <printf@plt> 
0x08048462 <+69>: mov $0x0, Seax 

0x08048467 <+74>: leave 

0x08048468 <+75>: ret 


End of assembler dump. 


0x80000000 在 内 存 或 寄存 器 中 的 布局 如 


网 


15-1 所 示 。 


0x0804843a 地 址 对 应 的 是 a> > 1 的 汇编 代码 ，sar 为 算术 右 移 ， 其 使 


其 中 第 一 位 “1” 即 符号 位 。 


终结 果 的 不 同 。 


15.3 


数组 和 指针 


图 15-1 


0x80000000 在 内 存 或 寄存 器 中 的 


符号 位 补 位 。 对 于 此 例 ， 即 


布局 


1 补 位 。0x08048450 地 址 对 应 的 是 b> > 1 的 汇编 代码 ，shr 为 逻辑 右 移 ， 其 使 


0 补 位 。 这 就 造成 了 最 


对 于 这 个 标题 ， 可 能 很 多 读者 都 会 认为 数组 和 指针 ， 几 乎 没有 什么 区 别 。 确 实 ， 在 大 多 数 的 情况 下 ， 数 组 和 指针 的 区 别 并 不 大 ， 甚 至 可 以 互 换 。 然 而 ， 这 两 者 实际 上 是 有 本 质 区 别 的 。 而 这 个 区 别 也 会 


导致 并 不 是 所 有 的 情况 下 ， 两 者 都 可 以 互 换 。 同 样 来 看 一 个 示例 : 


者 说 它 保存 的 值 可 以 被 视 为 地 址 。 


#include <stdlib.h> 
#include <stdio.h> 


int main() 

{ 
int array[4] = {0}; 
int *pointer = NULL; 
int value = 0; 
Value = array; 
Value = &array; 
value = array[0]; 
value = &array[0]; 
value = point; 
value = &point; 
return 0; 


对 其 反 汇编 ， 来 分 析 数 组 和 指针 的 本 质 。 分 析 的 过 程 将 直接 写 在 


汇编 的 代码 中 : 


Dump of assembler code for function main: 


0x080483ed <+0>: push Ss%ebp 
0x080483ee <+1>: mov %esp, Sebp 
0x080483f0 <+3>: sub $0x20, $esp 


/* 

下 面 4 行 对 应 C 代 码 int array[4] = {0}; 

这 里 说 明 部 组 只 是 一 个 同类 型 变量 的 内 存 空间 的 集合 。 

洁 个 多 年 中 ，array 是 在 栈 上 申请 了 4 个 整 型 变量 的 空间 。 
x 


0x080483f3 <+6>: mov1 $0x0,-0x10 (%ebp) 
0x080483fa <+13>: movl $0x0, -0xc (Sebp) 
0x08048401 <+20>: mov1 $0x0,-0x8 (sebp) 
0x08048408 <+27>: movl $0x0,-0x4 (sebp) 
娘 

这 行 对 应 的 C 代 码 为 int *pointer = NULL. 


这 说 明 指针 本 身 也 是 一 个 变 同样 占用 了 栈 空间 。32 位 机 器 上 ， 其 占用 4 字 节 。 

数组 和 指针 对 比 ， 其 占用 的 空间 实际 上 是 数组 中 元 素 占用 的 空间 之 和 。 

本 例 中 ， 即 array[0],array[1],array[2],array[3]， 而 array 本 身 实际 上 更 像 是 一 个 label。 */ 
Ox0804840f <+34>: movl $0x0, -0x18 (Sebp) 

/* 这 行 对 应 的 C 代 码 为 int value = 0; */ 


Ox08048416 <+41>: movl $0x0, -0x14 (sebp) 
/* 
下 面 两 行 对 应 的 C 代 码 是 Value = array; 


这 两 行 汇编 代码 是 指 取 得 array 首 元 素 的 地 址 并 将 其 赋 给 eax 寄 存 器 ， 然 后 再 将 eax 的 值 赋 给 value。 
lea 是 汇编 中 的 取 址 操作 。 */ 


Ox0804841d <+48>: lea —0x10 (Sebp) ,Seax 
Ox08048420 <+51>: mov Seax, -0x14 ($ebp) 
x 


下 面 两 行 代码 对 应 的 C 代 码 为 Value = &array。 
其 仍然 是 取 array 首 元 素 的 地 址 赋值 给 Value。 
wy 

0x08048423 <+54>: 
0x08048426 <+57>: 
/* 

这 两 行 代码 对 应 value=array[0]。 

注意 这 里 使 用 的 是 mov 汇 编 指令 ， 即 将 值 赋 给 eax。 */ 


lea 
mov 


-0x10 ($ebp) , Seax 
%eax, -0x14 ($ebp) 


Ox08048429 <+60>: mov -0x10 (Sebp) ,Seax 
Ox0804842c <+63>: mov Seax, -0x14 (Sebp) 


/* 
对 应 的 代码 为 value = &array[0]。 

从 汇编 指令 中 可 以 明确 看 出 ，array、&array、&array[0] ， 实 际 上 都 是 同一 个 地 址 。 
六 

站 


0x0804842f <+66>: lea —0x10 ($ebp), Seax 
0x08048432 <+69>: mov Seax, -0x14 ($ebp) 
/* 

对 应 的 代码 是 value = pointer。 


注意 这 里 使 用 的 是 mov 指 令 而 不 是 lea 指 令 。 是 将 指针 int *pointer 的 值 0 赋值 给 value。 


Ox08048435 <+72>: mov —0x18 (Sebp) ,Seax 
0x08048438 <+75>: mov %eax, -0x14 ($ebp) 
/* 

对 应 的 代码 是 value = &pointer; 


是 将 int *pointer 的 地 址 赋值 给 value。 
a 


Ox0804843b <+78>: lea —0x18 (Sebp) ,Seax 
0x0804843e <+81>: mov Seax, -0x14 (Sebp) 
Ox08048441 <+84>: mov $0x0, Seax 
Ox08048446 <+89>: leave 

Ox08048447 <+90>: ret 


End of assembler dump. 


通过 上 面 的 汇编 代码 ， 我 们 可 以 深入 地 理解 C 语 言 中 的 指针 和 数组 的 真正 含义 。 要 认识 到 指针 其 实 就 是 一 个 变量 ， 只 不 过 这 个 变量 是 
“*” 运 算 符 ， 做 提 领 运 算 。 而 这 个 提 领 运算 ， 其 实 就 是 将 变量 的 值 视 为 一 个 地 址 ， 然 后 从 这 个 地 址 中 读 取 值 。 


因为 指针 类 型 可 以 合法 地 使 


于 保存 地 址 的 〈 实 际 上 也 可 以 保存 其 他 内 容 ， 如 一 个 整数 ) ， 或 


为 了 加 深 对 指针 本 质 的 理解 ， 请 看 下 面 的 例子 : 


#include <stdlib.h> 
#include <stdio.h> 
int main (void) 
{ 
Short *pl = 0; 
int **p2 = 0; 
++pl; 
++p2; 
printf ("pl = %d, p2 = %d\n", pl, p2); 
return 0; 


这 是 我 很 喜欢 的 一 道 题目 。 大 家 可 以 想 一 下 ， 这 个 程序 是 否 会 月 省 ? 如 果 崩 溃 ， 原 因 是 什么 ”如果 不 崩溃 ， 其 输出 结果 是 什么 ? 


如 果真 正 理解 了 指针 ， 看 完 代码 ， 就 可 以 迅速 地 说 出 最 终 的 结果 。 如 果 你 还 在 犹豫 ， 那 就 说 明 你 对 指针 的 理解 还 不 够 透彻 。 


上 9 Fi /a.out 
pl = 2, p2 


简单 解释 一 下 。 前 面 说 了 ， 指 针 其 实 就 是 一 个 变量 ， 一 般 情况 下 其 在 32 位 系统 上 占用 的 空间 为 4 字 节 ， 在 64 位 系统 上 占用 的 空间 为 8 字 节 。 上 面 的 代码 中 ， 将 0 赋 给 p1 和 p2， 本 质 上 是 p1 和 p2 保 存 了 0 
值 。 然 后 p1 和 p2 自 增 ， 这 时 要 考虑 指针 指向 的 类 型 ， 其 步 进 为 sizeof (short) 和 sizeof (int*) 。 所 以 自 增 后 ，p1 和 p2 保 存 的 值 分 别 为 2 和 4。 最 让 人 疑惑 的 是 最 后 一 句 ， 实 际 上 是 将 p1 和 p2 视 为 整数 ， 打 
印 它们 的 值 。 那 么 结果 自然 就 是 2 和 4 了 。 


15.4 ”再 论 数组 首 地 址 


15.3 节 中 ， 通 过 汇编 代码 ， 我 们 知道 array、&array 和 &array[0] 的 地 址 是 相同 的 ， 那 么 它们 三 者 是 否 有 相同 的 含义 呢 ? 请 看 下 面 的 示例 代码 : 


#include <stdio.h> 
#include <stdlib.h> 


int a[2] [3]; 
printf ("ga[0] [0] address is 0x%X\n", ga[0][0]) 
printf ("&a[O ] [0]+1 adqqress is 0x%X\n", &a[0] [0 人 ml 
printf ("size of pointer step is 0x%X\n", sizeof(*(&a[0] [0]) 
De me an 和 
printf ("ga[0] address is Ox%X\n", &a[0]); 
printf ("ga[0]+1 address is Ox%X\n", &a[0]+1); 
printf ("size of pointer step is 0x%X\n", sizeof(*(&a[0]))); 
Brint£ ("Nm")y 
printf ("a address is 0x%X\n", a); 
printf ("at+l address is Ox%X\n", at+l); 
printf ("size of pointer step is 0x%X\n", sizeof (*a)); 
Erintf ("Va")y 
printf (" &a address is OA 7 &a); 
( 
三 
( 


return 0; 


大 家 可 以 先 想 一 下 其 运行 结果 是 什么 ， 然 后 再 看 下 面 的 结果 


[fgao@ubuntu chapter15]#./a.out 
&a[0] [0] address is 0xBF903D48 
&a[0]0]+1 address is 0xBF903D4C 
size of pointer step is 0x4 
&a[0] address is 0xBF903D48 
&a[0]+1 address is OxBF903D54 
size of pointer step is 0xC 

a address is 0xBF903D48 

a+l address is 0xBF903D54 

size of pointer step is 0xC 

&a address is 0xBF903D48 

&atl address is 0xBF903D60 

size of pointer step is 0x18 


从 输出 上 看 ， 可 以 发 现 &a[0][0]、&a[0]、a， 还 有 &a 的 地 址 值 都 是 相同 的 ， 然 而 其 步 进 1 即 地 址 +1 的 值 却 完全 不 同 。 


为 什么 会 是 这 样 呢 》 因 为 尽管 这 几 个 变量 的 地 址 相同 ， 但 是 其 变量 类 型 却 是 不 同 的 : 


&a[0][0] 的 类 型 是 int*pointer， 所 以 步 长 为 4 字 节 。 
&al0] 的 类 型 为 int (*pointer) [3]， 所 以 步 长 为 12 字 节 。 
“ a 的 类 型 也 为 int (*pointer) [3]， 所 以 其 步 长 也 为 12 字 节 。 


“ &ca 的 类 型 为 int (*pointer) [2][3]， 所 以 其 步 长 为 24 字 节 。 


15.5 “神奇 ”的 整数 类 型 转换 


整数 类 型 转换 经 常 被 当 作 笔试 题目 之 一 ， 大 家 可 能 会 觉得 那样 的 题目 很 简单 ， 也 许 同 样 会 觉得 本 节 也 没什么 难度 。 请 大 家 先 耐 心 看 一 下 下 面 的 示例 : 


#include <stdlib.h> 
#include <stdio.h> 
#define PRINT COMPARE RESULT(a, b) \ 
if (a>b) (AN 
printf(#a " > " #b "\n"); \ 
} else if (a<b)i{\ 
Printf(#a "< "机 "\n"); \ 
} else {N 
Printf(#a "= ”可 "\n"); \ 


int main(void) 


{ 


signed int a = -1; 
unsigned int b = 2; 

signed short c = -1; 
unsigned short d = 2; 
PRINT COMPARE RESULT (a, b); 
PRINT COMPARE RESULT (c, d); 
return 0; 


大 多 数 同学 可 能 都 遇 到 过 这 类 将 a 和 b 进 行 比较 的 题目 ， 结 果 是 a>b， 原 因 也 很 简单 明确 : 当 signed int 和 unsigned int 进 行 比 较 时 ，signed int 会 被 转换 为 unsigned int。-1 的 值 即 0xFFFFFFFF， 就 被 


视 为 无 符号 整数 的 最 大 值 ， 因 此 a>b。 然 而 对 于 c 和 d 来 说 ， 其 类 型 分 别 是 signed short 和 unsigned short， 那 么 结果 又 会 是 什么 呢 ? 请 看 下 面 的 输出 : 


[fgao@ubuntu chapter15]#./a.out 
a > b 
交 妆 问 


是 不 是 感觉 有 些 意外 ? 为 什么 仅仅 从 int 变 为 short， 其 结果 就 截然 不 同 了 呢 ? 


原因 在 于 C 标 准 规定 ， 当 进行 整数 提升 时 ， 如 果 int 类 型 可 以 表示 原始 类 型 的 所 有 值 时 ， 它 就 被 转换 为 int 类 型 ， 不 然则 被 转换 为 unsigned int。 所 以 当 c 和 dj 进行 比较 时 ，c 和 d 的 类 型 分 别 是 short 和 


unsigned short， 那 么 它们 就 会 被 转换 为 int 类 型 ， 则 实际 是 对 (int) -1 和 (int) 2 进行 比较 ， 结 果 自 然 是 c < d。 


15.6 _ 小心 volatile 的 原子 性 误解 


关于 volatile 的 说 明 ， 是 一 个 老生 常 谈 的 问题 。 其 定义 很 简单 ， 可 以 理解 为 易 变 的 ， 防 止 编译 器 对 其 优化 。 因 此 其 用 途 一般 有 以 下 三 种 : 
“ 外 部 设备 寄存 器 映射 后 的 内 存 一 一 因为 外 部 寄存 器 随时 可 能 由 于 外 部 设备 的 状态 变化 而 改变 ， 因 此 映射 后 的 内 存 需要 用 volatile 来 修饰 。 
:多 线程 或 异步 访问 的 全 局 变量 。 


“ 嵌入 式 编程 一 防止 编译 器 对 其 优化 。 


对 第 1 种 和 第 3 种 的 用 途 大 家 基本 上 都 不 会 有 什么 误解 ， 但 经 常会 错误 地 理解 第 2 种 情况 : 认为 int 类 型 的 加 减 操作 是 原子 的 ， 因 此 在 使 用 了 volatile 后 ， 就 无 须 使 用 锁 来 进行 竞争 保护 了 。 比 如 下 面 这 样 的 


代码 : 


static volatile int counter = 0; 
void add counter (void) 
{ 

++counter; 


E 


其 反 汇编 代码 为 : 


add counter: 

pushl sebp 

mov] sesp，sebp 
Imov1 counter, %eax 
addl $1, %Seax 
mov] %Seax, counter 
popl sebp 

ret 


上 面 的 汇编 代码 ， 首 先是 将 counter 的 值 保存 到 eax 寄 存 器 ， 然 后 对 eax 进 行 加 1 操作 ， 最 后 再 将 eax 的 值 保存 到 counter 中 。 这 样 ，+ +counter 就 绝 不 可 能 是 原子 操作 了 ， 必 须 使 用 锁 保护 。 


那么 volatile 对 于 变量 来 说 ， 究 竟 有 什么 样 的 效果 呢 ? 下 面 的 代码 对 上 面 的 代码 进行 了 一 些 修改 : 


static int counter = 0; 
void add counter (void) 
{ 
for (; counter != 10;) { 
++counter; 


} 


gcc-S-O 15_6_volatile.c 生 成 对 应 的 汇编 代码 : 


add counter: 


.LFBO: 
.Cfi startproc 
movl Counter, %eax 
cmpl $10, Seax 
je .Ll1 
4 
addl $1, Seax 
cmpl $10, Seax 
jne .L4 
movl $10, counter 
ss 
rep ret 
.Cfi endproc 
.LFEO: 


从 上 面 的 汇编 代码 可 以 清晰 地 看 出 ， 在 进入 add_counter 后 ， 首 先 会 将 counter 的 值 赋 给 eax 寄 存 器 ， 然 后 eax 进 行 加 1 操作 ， 青 与 立即 数 10 进 行 比 较 。 也 就 是 说 ，for 循 环 的 C 代 码 只 涉及 eax 寄 存 器 ， 而 


不 会 对 counter 进 行 任何 访问 。 


接 下 来 ， 对 counter 添 加 上 volatile 修 饰 符 : 


static Volatile int counter = 0; 
void add counter (void) 
{ 
for (; counter != 10; ) { 
++counter; 


} 


然后 生成 汇编 代码 gcc-S-O 15 6 volatile2.c: 


add counter: 


.LFBO: 
.Cfi startproc 
movl counter, $eax 
cmpl $10, geax 
je .Ll1 

3 
movl Counter, %eax 
addl] $1, %eax 
movl Seax, counter 
movl Counter, %eax 
cmpl $10, geax 
jne L3 

ls 
rep ret 


.cfi_endproc 


与 没有 volatile 的 汇编 代码 相 比 ， 其 差异 很 明显 。 使 用 了 volatile 之 后 ， 与 counter 的 自 增 操作 对 应 的 汇编 代码 ， 每 次 都 要 重新 从 Counter 读 取 值 ， 再 将 其 赋值 给 eax 寄 存 器 。 


现在 对 volatile 的 理解 就 比较 深刻 了 。volatile 只 能 保证 在 访问 该 变量 时 ， 每 次 都 是 从 内 存 中 读 取 最 新 值 ， 并 不 会 使 用 寄存 器 中 缓存 的 值 。 而 对 该 变量 的 修改 ，volatile 并 不 提供 原子 性 的 保证 。 


15.7 ”有趣 的 问题 “x==x” 何 时 为 假 ? 


看 到 这 个 题目 ， 大 家 可 能 会 想到 一 些 比较 另类 的 方法 ， 比 如 使 用 宏 定 义 ， 或 者 用 高 级 语言 中 的 操作 符 重 载 之 类 的 。 但 如 果 说 要 求 使 用 最 原始 的 C 语 言 表达 式 ， 那 么 什么 时 候 “x= =x” 会 是 假 呢 ? 请 看 下 
面 的 代码 : 


#include <stdlib.h> 
#include <stdio.h> 
#include <string.h> 
int main (void) 
{ 

float x = Oxffffffff; 

if (x == x) { 

printf ("Equal\n"); 


else { 
printf ("Not equal\n"); 


if (x >= 0) { 
printf ("x(%f) >= 0\n", x); 


else if (x < 0) { 
Printf (me(YE) < DNn™ x}s 
int a = Oxffffffff; 

memcpy (&x, &a, sizeof (x)); 
if (x = x) { 

printf ("Equal\n"); 


else { 
printf ("Not equal\n"); 


if (x >= 0) { 
printf ("x(%f) >= 0\n", x); 


else if (x < 0) { 
printf ("x(%f) < O\n", x); 
} 


else { 
Printf ("Surprise x(%f)!!!\n", x); 


return 0; 


gcc-Wall 15_7_float.c 编 译 并 执行 。 输 出 结果 如 下 所 示 : 


[fgao@ubuntu chapter15]#./a.out 


Equal 
X(4294967296.000000) >= 0 
Not equal 

Surprise x(-nan)!!! 


这 样 的 结果 是 不 是 有 些 意外 呢 ? 


简单 解释 一 下 其 中 的 原因 : 


” 当 float x=Oxffffffff 时 ， 将 整数 赋值 给 一 个 浮 点 数 ， 由 于 float 和 int 都 占用 了 4 字 节 ， 但 浮 点 数 的 存储 格式 与 整数 不 同 ， 其 需要 一 定 的 数位 来 作为 小 数位 ， 所 以 float 的 表示 范围 要 小 于 int。 这 里 涉及 了 C 语 言 
中 的 类 型 转换 。 


“ 当 整 数 转换 为 浮 点 数 时 ， 尽 管 数值 会 有 所 变化 ， 但 结果 一 定 是 一 个 合法 的 浮 点 值 。 所 以 x 一 定 等 于 x， 且 x 不 是 大 于 等 于 0， 就 是 小 于 0。 
“ 当 使 用 memcpy 将 0xff 填 充 到 x 的 地 址 时 ， 这 时 保证 了 x 储存 的 一 定 是 0xffffffff， 但 很 可 惜 它 不 是 一 个 合法 的 浮 点 值 ， 而 是 一 个 特殊 值 NaN。 


“ 作为 一 个 非法 的 浮 点 数 NaN， 当 它 与 任何 数值 相 比 较 时 ， 都 会 返回 假 。 所 以 就 有 了 比较 意外 的 结果 x==x 为 假 ，x 即 不 大 于 0， 不 小 于 0， 也 不 等 于 0。 


15.8 小 心 浮 点 陷阱 


15.7 节 通过 “x= =x” 为 假 这 个 问题 ， 引 出 了 一 个 特殊 的 浮 点 值 NaN。 本 节 将 挖掘 出 更 多 的 浮 点 陷阱。 


15.9 “Intel 移 位 指令 陷阱 


假设 操作 平台 为 32 位 平台 ， 请 看 下 面 的 示例 代码 : 


#include <stdio.h> 
int main() 


{ 

#define MOVE CONSTANT BITS 32 
unsigned int move step=MOVE CONSTANT BITS; 
unsigned int valuel = lul << MOVE CONSTANT BITS; 
printf ("valuel is Ox%X\n", valuel); 
unsigned int value2 = 1ul << move step; 
printf ("value2 is Ox%X\n", value2); 
return 0; 


上 面 的 代码 中 ，value1 使 用 立即 数 32 进 行 左 移 ， 而 value2 使 用 一 个 变量 move_step 进 行 左 黎 ， 且 move_step 的 值 也 是 32。 那 么 问题 来 了 ， 最 后 value1 和 value2 的 值 是 什么 ? 我 相信 大 部 分 人 都 会 说 最 后 
两 个 值 是 一 样 的 ， 都 是 0。 那 么 ， 请 看 出 人 意料 的 实际 结果 : 


[fgao@ubuntu chapter15]#./a.out 
valuel is 0x0 
Value2 is 0x1 


为 了 解释 这 个 意外 的 结果 ， 我 们 再 次 祭 出 反 汇 编 这 一 利器 : 


Dump of assembler code for function main: 


0x0804841d <+0>: push Ss%ebp 

0x0804841e <+1>: mov gesp Sebp 
0x08048420 <+3>: and S$Oxfffffff0, Sesp 
0x08048423 <+6>: sub $0x20, Sesp 
0x08048426 <+9>: mov1 $0x20,0x14 (Sesp) 
0x0804842e <+17>: mov1 $0x0,0x18 ($esp) 
0x08048436 <+25>: mov 0x18 (Sesp), Seax 
0x0804843a <+29>: mov Seax, Ox4 (Sesp) 
0x0804843e <+33>: movl $0x8048510, (sesp) 
Ox08048445 <+40>: call 0x80482f0 <printf@plt> 
Ox0804844a <+45>: mov 0x14 (Sesp) ,Seax 
Ox0804844e <+49>: mov $0x1, Sedx 
Ox08048453 <+54>: mov Seax, Secx 
0x08048455 <+56>: shl Sc1, Sedx 
0x08048457 <+58>: mov Sedx, Seax 
0x08048459 <+60>: mov Seax, Oxlc (Sesp) 
0x0804845d <+64>: mov Oxlc (Sesp) ,Seax 
0x08048461 <+68>: mov Seax, Ox4 (Sesp) 
0x08048465 <+72>: movl $0x8048520, (sesp) 
Ox0804846c <+79>: call 0x80482f0 <printf@plt> 
0x08048471 <+84>: mov $0x0, Seax 
0x08048476 <+89>: leave 

0x08048477 <+90>: ret 


End of assembler dump. 


第 6 行 汇编 代码 movl$0x0，0x18 (%esp) 对 应 的 C 代 码 为 unsigned int value1=1ul<<MOVE_CONSTANT_BITS。 也 就 是 说 ， 对 于 变量 value1， 编 译 器 直接 生成 了 结果 0 一 一 该 结果 也 是 我 们 预期 的 
结果 。 而 对 于 value2， 则 是 真正 使 用 了 左 移 移 位 指令 shl。 那 么 问题 就 转变 成 了 为 什么 对 一 个 int 整 数 左 移 32 位 ， 其 结果 不 是 0 呢 ? 


请 看 Intel 的 指令 手册 中 关于 shl 的 说 明 : 
SAL/SAR/SHL/SHR 一 hift (Continued) 一 一 32 位 机 
Description 


These instructions shift the bits in the first operand (destination operand) to the left or tight by the number of bits specified in the second operand (count operand) .Bits shifted beyond the destination operand boundary 


are first shifted into the CF flag, then discarded.At the end of the shift operation, the CF flag contains the last bit shifted out of the destination operand. 


The destination operand can be a register or a memoty location.The count operand can be an immediate value or register CL.The count is masked to five bits, which limits the count tange to 0 to 31.A special opcode 


encoding is provided for a count of 1. 


现在 真相 大 白 了 。 原 来 在 32 位 机 器 上 ， 保 存 移 位 个 数 的 指令 位 只 有 5 位 。 那 么 当 执 行 左 移 32 位 时 ， 实 际 上 就 是 左 移 0 位 ， 即 没有 任何 变化 。 所 以 value2 左 移 32 位 时 ， 其 值 仍 然 为 1。 


在 32 位 机 器 上 ， 实 际 左 移 位 数 等 于 “指定 位 数 &Ox1F”。 


@w 在 64 位 机 器 上 ， 要 将 Value 1 和 Value 2 修改 为 long 类 型 左 移 64 位 进行 测试 。 


